Accueil > Technologies > Solutions technologiques > 5 raisons de choisir Spark pour les traitements de vos Big Data

Solutions technologiques

5 raisons de choisir Spark pour les traitements de vos Big Data

25 août 2015 Modifié le 4 mai 2023

Rapide, efficace, riche, adaptable… Spark a le vent en poupe pour tout ce qui concerne les traitements Big Data ! Voici 5 bonnes raisons pour lesquelles ce système de traitement de données open source n’est pas une mode… Spark est la solution à la mode dans le monde complexe du Big Data. Mais connaissez-vous réellement les raisons de cet engouement pour ce type de traitements ? Pourquoi l’utiliser et comment fonctionne-t-il ?

1. Spark fonctionne en mémoire

Ceux qui ont déjà travaillé sur Hadoop ont noté le temps de réponse relativement long des traitements sous Pig ou Hive relativement à ce que nous connaissons avec une base de données.

REPLAY

CRM : comment la Région Bretagne a déployé son projet de Relation Usagers ?

C’est le paradoxe de ce type de plateforme conçue pour être avant tout performante sur de gros volumes de données (certains savent aussi que les bases de données ne renvoient pas toujours des résultats quand la volumétrie est extrême). Quoi qu’il en soit, cette première prise de contact peut en décourager certains. Ce n’est pas le cas avec Spark.

World record set for 100 TB sort by open source and public cloud team - Crédits image : opensource.com — World record set for 100 TB sort by open source and public cloud team – Crédits image : opensource.com

La solution s’appuie sur les mêmes concepts qu’Hadoop (calcul distribué, Map Reduce) mais ici les données sont montées en mémoire et les traitements sont de fait jusqu’à 100 fois plus rapide que sur Hadoop.

A noter que Spark reste un moteur d’exécution généraliste : il privilégie les traitements en mémoire mais peut aussi bien opérer avec des données sur disque.

Spark a battu le record précédemment détenu par Hadoop pour trier les 100 To de données du Daytona GraySort Contest en 23 minutes.

2. Spark s’intègre à votre architecture Hadoop

Spark peut fonctionner de manière autonome et en mode distribué car l’outil dispose de son propre mécanisme de clusterisation. Mais l’intérêt est de pouvoir bien entendu l’intégrer à un cluster Hadoop.

Or, cela se fait très simplement. Yarn continue de centraliser les besoins et gérer le pilotage des ressources entre des traitements Spark et d’autres traitements de type Map Reduce.

Pourquoi garder Hadoop, me direz vous, si Spark est si performant ? Tout simplement parce que pour l’instant, Hadoop reste la meilleure solution globale de stockage avec des outils d’administration, de sécurité et de monitoring plus avancés.

Ce choix, Oracle l’a fait pour sa toute nouvelle solution de découverte et d’analyse de données, Big Data Discovery. Le produit s’installe sur un cluster Hadoop (exclusivement Cloudera) et s’appuie très largement sur Spark pour ses traitements.

Oracle Big Data Discovery. Crédits image : Oracle

3. Spark s’appuie sur un langage riche : Scala

On peut travailler sous Spark avec plusieurs langages comme Java ou Python. Mais Spark devient vraiment intéressant avec son langage natif Scala.

Des spécialistes comme James Gosling, l’inventeur de Java, prédisent d’ailleurs un bel avenir à ce langage. Scala, le langage qui va remplacer Java.

Article

Pourquoi je développe en Spark-Scala pour mes projets Big Data ?

Langage objet

Scala est un langage objet. Comme tous les langages objets, cette possibilité simplifie l’écriture de code complexe et rend plus lisible les programmes. La maintenance est facilitée. En Scala, tous les éléments sont objets, même un nombre de type entier par exemple.

Programmation fonctionnelle

Scala est un langage fonctionnel. La programmation fonctionnelle se distingue de la programmation impérative qui s’appuie elle sur des changements d’états d’une variable. Scala, a contrario, préconise l’utilisation de variables non modifiables. Un calcul consiste alors à appliquer des fonctions successives à une variable pour définir une nouvelle variable. Cette approche est particulièrement bien adaptée aux traitements de données répartis sur différents datanodes.

Exemple:

val immobilisations = depenses.filter(x => (x.datefin).after(x.datedebut)).distinct()

Dans cet exemple, je pars d’une variable ‘depenses’ (distribuée sur plusieurs datanodes). Cette variable est composée de plusieurs attributs. J’applique un filtre sur un attribut de type date pour ne garder que les lignes dont la date de fin est strictement supérieure à la date de début puis j’opère un distinct pour dédoublonner mes lignes résultats.

Le tout tient sur une seule ligne de code 😉 !

4. Spark est paresseux … et c’est bien 😉

Lorsque Spark charge les données sur son cluster, les données deviennent de type RDD (Resilient Distributed Datasets). Deux types de méthodes sont disponibles pour travailler avec ces RDD. Les méthodes de type « transformation » modifient les données, opèrent des calculs mais elles ne sont pas exécutées tout de suite. Elles sont stockées dans une pile d’instructions dans l’attente de l’appel d’une méthode de type « action » qui va déclencher l’exécution de l’ensemble des instructions en mémoire.

Cette « approche paresseuse » (Lazy Evaluation) est très intéressante car elle permet de développer les programmes en ligne de commande, sans perte de temps entre chaque instruction (car on utilise le plus souvent des transformations). Cette approche permet aussi à l’optimiseur d’être plus efficace.

5. Spark intègre tous les outils du data scientist : Streaming, SQL, Machine Learning et Graphes

Spark dispose de nombreuses librairies avancées. L’objectif recherché par les inventeurs de Spark est d’offrir différentes vues et moyens d’accéder aux données sans devoir changer d’outil. La dernière librairie disponible est SparkR qui va permettre aux habitués du langage R de travailler nativement sur un cluster distribué.

On peut imaginer un cas théorique où le data scientist récupère par exemple des données en temps réel en provenance d’objets connectés (librairie Spark Streaming), modélise les données dans des tables et exécute des requêtes SQL pour démarrer une analyse de données (librairie DataFrames and SQL). Au regard des résultats, il s’intéresse à une série de capteurs et cherche à identifier des corrélations (librairie MLlib Machine Learning).

Au delà du buzz, Spark dispose donc de vrais atouts. J’espère vous avoir convaincu de tester cette solution. Pour aller plus loin, continuez de suivre ce blog, et découvrez mes 3 tutoriels dédiés à Spark Streaming : de la gestion des données à la maintenance des traitements, de la transformation des données aux tests unitaires, et les tests de performance.

👉 Retrouvez toute notre actu en temps réel en nous suivant sur LinkedIn 👈

Business & Decision

Plus de 20 ans d’expérience dans la mise en place d’architectures dédiées à la valorisation de vos données grâce aux technologies BI et Big Data.

Commentaire (1)

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.

Auto-sales Le 22 juin 2016 à 16h46

Spark dispose de nombreuses librairies avancées. L'objectif recherché par les inventeurs de Spark est d'offrir différentes vues et moyens d'accéder aux données sans devoir changer d'outil. La derniere librairie disponible est SparkR qui va permettre aux habitués de ce langage de travailler nativement sur un cluster distribué.

Sécurité des données

Identités numériques : tout comprendre sur ce domaine en pleine évolution

L'identité numérique est au cœur des interactions en ligne, des transactions commerciales, des processus administratifs et de la protection des données personnelles. Elle englobe non seulement la manière dont les...

Premium

Innovations Cloud

REPLAY | FinOps : Comment un grand groupe a réduit de 70% la facture d’un projet cloud ?

La maîtrise des coûts liés au cloud représente un enjeu crucial pour les entreprises en 2025. Cette vidéo, réalisée sous forme de webinar, met en lumière l'expérience d'un client ayant...

IoT et objets connectés

[Data Rider] REX Collecte de données IoT – Étape 1 : Initier la collecte

Vous êtes-vous déjà dit que la partie « collecte de données » d’une chaîne de données était une partie relativement simple d’un projet ? Dans cette série d’articles, nous expliquons pourquoi, selon nous,...

Actualités Data et IA

Revue de presse Data & IA – Mai 2025

Quelles sont les actualités qu’il ne fallait pas manquer dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : Salesforce s’offre Informatica, Meta va entraîner ses systèmes d'IA...

Premium

Innovation

REPLAY | Accessibilité numérique, secteur privé et évolution de la législation : cap sur la mise en conformité

Dans un monde de plus en plus digitalisé, l’accessibilité numérique est devenue un impératif. Elle garantit que chacun, quels que soient ses capacités ou ses outils, puisse accéder aux contenus...

Premium

Transformation digitale

REPLAY | Réinventez vos parcours métiers grâce à l’IA, au Low-Code et au Cloud Native

Les attentes des clients et des collaborateurs évoluent de plus en plus vite. Ainsi, pour rester compétitif, il ne suffit plus d’innover, il faut le faire vite, bien et en...

Solutions technologiques

Copilotage Intelligent avec Microsoft Azure : Approche d’architecture pilotée par les indicateurs de performance

Les avancées en intelligence artificielle générative, notamment via les LLMs (Large Language Models), ouvrent des perspectives inédites d’amplification des capacités humaines dans les entreprises. Comme l’ont souligné Brynjolfsson et McAfee...

Stratégie Data

Présent et futur de l’IA : quelle trajectoire pour les entreprises ?

L’ascension de ChatGPT a été fulgurante, et a propulsé l'intelligence artificielle, notamment l'IA générative, sur le devant de la scène. Jamais une technologie n’est allée aussi vite dans son adoption...

Premium

Solutions technologiques

REPLAY | Azure Arc ou comment optimiser vos usages Microsoft on premise

Comment maximiser la sécurité et l'efficacité de votre infrastructure ? Azure Arc peut transformer la gestion de vos serveurs SQL et Windows tout en restant sur site. Nos explications en...

Premium

Solutions technologiques

REPLAY | Liferay : accélérez le développement de vos applications digitales avec une plateforme low-code souveraine

Dans un marché en constante évolution, la rapidité de déploiement des expériences et applications digitales est essentielle pour garder une longueur d’avance. 70% des entreprises considèrent l’accélération du Time to...

Actualités Data et IA

Revue de presse Data & IA – Avril 2025

Quelles sont les actualités qu’il ne fallait pas manquer dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : l'entreprise Bleu franchit la première étape vers la qualification...

Stratégie Data

Les enjeux IA & Data 2025 : entre course à l'IA générale et réalité terrain

Alors que la course vers une IA générale mobilise des ressources considérables, les entreprises sont confrontées à des enjeux beaucoup plus concrets. Loin des effets d’annonce, il est impératif de...

Premium

Transformation digitale

REPLAY | CSRD : Les secrets d'une approche Data ESG performante

La CSRD, récemment bousculée par l’Omnibus de la Commission Européenne, continue de transformer le reporting extra-financer. Il devient alors essentiel pour les entreprises d’intégrer l’ESG au cœur de leur stratégie....

Premium

Migration vers le cloud

REPLAY | Réussissez votre migration vers le cloud : Stratégie et Retour d'expérience avec Bleu

Les entreprises et administrations publiques sont soumises à de fortes exigences en matière de confidentialité. Comment allier innovation et maîtrise des données ? Retour d’expérience pour réussir votre migration vers le...

5 raisons de choisir Spark pour les traitements de vos Big Data

1. Spark fonctionne en mémoire

2. Spark s’intègre à votre architecture Hadoop

3. Spark s’appuie sur un langage riche : Scala

Langage objet

Programmation fonctionnelle

4. Spark est paresseux … et c’est bien 😉

5. Spark intègre tous les outils du data scientist : Streaming, SQL, Machine Learning et Graphes

Découvrez aussi

Identités numériques : tout comprendre sur ce domaine en pleine évolution

REPLAY | FinOps : Comment un grand groupe a réduit de 70% la facture d’un projet cloud ?

[Data Rider] REX Collecte de données IoT – Étape 1 : Initier la collecte

Revue de presse Data & IA – Mai 2025

REPLAY | Accessibilité numérique, secteur privé et évolution de la législation : cap sur la mise en conformité

REPLAY | Réinventez vos parcours métiers grâce à l’IA, au Low-Code et au Cloud Native

Copilotage Intelligent avec Microsoft Azure : Approche d’architecture pilotée par les indicateurs de performance

Présent et futur de l’IA : quelle trajectoire pour les entreprises ?

REPLAY | Azure Arc ou comment optimiser vos usages Microsoft on premise

REPLAY | Liferay : accélérez le développement de vos applications digitales avec une plateforme low-code souveraine

Revue de presse Data & IA – Avril 2025

Les enjeux IA & Data 2025 : entre course à l'IA générale et réalité terrain

REPLAY | CSRD : Les secrets d'une approche Data ESG performante

REPLAY | Réussissez votre migration vers le cloud : Stratégie et Retour d'expérience avec Bleu

Informations sur la gestion de vos données et vos droits