Accueil > Data Science / IA > Comprendre l'IA et la Data Science > Data Engineer : quelles formations privilégier ?

Comprendre l'IA et la Data Science

Data Engineer : quelles formations privilégier ?

19 mars 2019 Modifié le 5 mai 2023

Dans mon précédent article, nous nous sommes demandé quelles étaient les compétences idéales pour bien démarrer en Data Science. Aux jeunes qui veulent se lancer dans la Data Science, j’avais alors recommandé de commencer par une fonction de Data Engineering plutôt que Data Scientist directement. Aujourd’hui, je vous propose de voir quels sont les apprentissages et les formations à privilégier pour devenir Data Engineer.

Data Engineer : quelles formations privilégier ?

Le Data Engineer maîtrise parfaitement les écosystèmes Big Data comme Spark ou Hadoop et bien entendu leur programmation. Le Data Engineer va ainsi tout particulièrement assurer les rôles suivants :

Rendre opérationnelle l’infrastructure Big Data
Assurer l’ingestion et l’exposition des données dans ou depuis l’infrastructure
Assurer la préparation et le recodage 1er niveau des données
Programmer, automatiser et optimiser les algorithmes sur l’infrastructure cible

« Un Data Engineer est d’abord un informaticien »

REPLAY

CRM : comment la Région Bretagne a déployé son projet de Relation Usagers ?

Un Data Engineer est d’abord un informaticien. Les formations universitaires et d’écoles d’ingénieurs classiques en informatique, en Big Data et bien entendu en Data Engineering, sont donc bien adaptées à cette fonction.

Elles doivent si possible inclure une formation la plus poussée possible en langage Python et en langage Scala. Il ne faut pas oublier non plus la maitrise poussée du SQL et de ses « variantes » modernes NoSQL comme Hive, Impala ou Spark SQL.

Les enseignements techniques (nous ne parlons pas ici des « soft skills », lesquels feront l’objet d’un article ultérieur) devront s’organiser autour de plusieurs grands axes qui seront a minima le Big Data, le Cloud, les méthodes DevOps, et bien entendu l’Intelligence Artificielle.

Concernant le Big Data, les incontournables sont bien entendu Spark et Hadoop. Hadoop englobe tout l’écosystème dit « Zookeeper », et inclut des technologies comme Hive, Nifi, Oozie et Kafka. Bon nombre de ces technologies étant basées sur Java, c’est une bonne idée d’avoir de bonnes bases en Java pour mieux maitriser cet environnement, mais il n’est pas nécessaire d’être un développeur Java JEE pour devenir Data Engineer (et encore moins pour devenir Data Scientist).

Spark devient incontournable

En revanche, Spark est totalement incontournable. On peut l’aborder de deux manières, soit via Python par l’intermédiaire de PySpark, soit par l’intermédiaire du langage Scala. Les deux voies sont possibles, mais bien évidemment l’idéal est d’avoir les deux cordes à son arc.

Concernant l’aspect Cloud, et les éditeurs privés ne manquant pas, il faut faire des choix. L’important est de bien maîtriser les infrastructures Spark et Hadoop dans le (ou les) cloud(s) cible(s) que l’on choisit d’étudier. En effet, chaque cloud possède ses spécificités techniques, et en particulier des API pour l’intelligence Artificielle qui sont mises à disposition par l’éditeur et qu’il est préférable de bien connaître.

Mener un projet d’IA

Ceci nous amène naturellement vers l’Intelligence Artificielle (IA). Dans ce domaine, Python règne bien sûr en maître. Mais attention, au-delà de Python, il est nécessaire de maîtriser un certain nombre de librairies Python pour pouvoir mener à bien un projet complet. On peut citer seulement les librairies les plus importantes comme Numpy, Pandas, Mathplotlib, Scikit-learn, Mllib, etc. Il faut également maîtriser les gestionnaires de codes et les notebooks comme Git, GitHub, GitLab, Jupyter, Zeppelin, etc.

Réaliser un projet d’IA 100 % en Python est toujours possible, mais aucun client (interne ou externe) ne voudra vous l’acheter car il coûtera trop cher et sera trop difficile à maintenir.

Il faut donc également être capable de gérer les plateformes spécialisées en Intelligence artificielle du marché. Il y en a beaucoup et l’objet de cet article n’est pas d’en faire une liste exhaustive ni de vous en faire un comparatif. Je vous renvoie à cet effet par exemple sur les benchmarks 2019 du Gartner – Magic Quadrant concernant les plateformes de Data Science et de Machine Learning.

Formation technique et conduite de projet

Au-delà des formations techniques dont je vous ai donné un bref aperçu plus haut. Il faut ajouter des formations sur les méthodes de conduite de projet. On citera notamment les méthodes DevOps et la méthode CRISP incontournable. La méthode Scrum doit aussi être comprise mais attention aux « mauvais mélanges » entre méthodes, en Data Science par exemple CRISP doit absolument être prioritaire sur Scrum. Pour supporter DevOps, les technologies docker et kubernetes présentent un intérêt certain.

C’est pourquoi, Business & Decision lance l’Ecole de la Data qui formera environ 40 Data Engineers en 2019 en deux promotions. Ces formations seront étoffées dès l’année prochaine en rajoutant notamment la fonction de Data Scientist.

L’idée sous-jacente de ce projet est de s’assurer que les jeunes talents qui nous rejoignent soient pleinement opérationnels après avoir suivi l’Ecole de la Data de Business & Decision. Le cursus dure trois mois, et est complémentaire de ce qui est vu en école d’ingénieurs et en université.

Directeur Data Science & IA Orange Business

Data Scientist – Directeur Data Science & IA d’Orange Business, et professeur de Data Science à l’EPF. Directeur pédagogique de la « Digital Services School ».

Commentaire (1)

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.

Rim Le 22 mai 2020 à 19h18

Un étranger avec un diplôme d'ingénieur en informatique peut-il candidater?

Sécurité des données

Identités numériques : tout comprendre sur ce domaine en pleine évolution

L'identité numérique est au cœur des interactions en ligne, des transactions commerciales, des processus administratifs et de la protection des données personnelles. Elle englobe non seulement la manière dont les...

Premium

Innovations Cloud

REPLAY | FinOps : Comment un grand groupe a réduit de 70% la facture d’un projet cloud ?

La maîtrise des coûts liés au cloud représente un enjeu crucial pour les entreprises en 2025. Cette vidéo, réalisée sous forme de webinar, met en lumière l'expérience d'un client ayant...

IoT et objets connectés

[Data Rider] REX Collecte de données IoT – Étape 1 : Initier la collecte

Vous êtes-vous déjà dit que la partie « collecte de données » d’une chaîne de données était une partie relativement simple d’un projet ? Dans cette série d’articles, nous expliquons pourquoi, selon nous,...

Actualités Data et IA

Revue de presse Data & IA – Mai 2025

Quelles sont les actualités qu’il ne fallait pas manquer dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : Salesforce s’offre Informatica, Meta va entraîner ses systèmes d'IA...

Premium

Innovation

REPLAY | Accessibilité numérique, secteur privé et évolution de la législation : cap sur la mise en conformité

Dans un monde de plus en plus digitalisé, l’accessibilité numérique est devenue un impératif. Elle garantit que chacun, quels que soient ses capacités ou ses outils, puisse accéder aux contenus...

Premium

Transformation digitale

REPLAY | Réinventez vos parcours métiers grâce à l’IA, au Low-Code et au Cloud Native

Les attentes des clients et des collaborateurs évoluent de plus en plus vite. Ainsi, pour rester compétitif, il ne suffit plus d’innover, il faut le faire vite, bien et en...

Solutions technologiques

Copilotage Intelligent avec Microsoft Azure : Approche d’architecture pilotée par les indicateurs de performance

Les avancées en intelligence artificielle générative, notamment via les LLMs (Large Language Models), ouvrent des perspectives inédites d’amplification des capacités humaines dans les entreprises. Comme l’ont souligné Brynjolfsson et McAfee...

Stratégie Data

Présent et futur de l’IA : quelle trajectoire pour les entreprises ?

L’ascension de ChatGPT a été fulgurante, et a propulsé l'intelligence artificielle, notamment l'IA générative, sur le devant de la scène. Jamais une technologie n’est allée aussi vite dans son adoption...

Premium

Solutions technologiques

REPLAY | Azure Arc ou comment optimiser vos usages Microsoft on premise

Comment maximiser la sécurité et l'efficacité de votre infrastructure ? Azure Arc peut transformer la gestion de vos serveurs SQL et Windows tout en restant sur site. Nos explications en...

Premium

Solutions technologiques

REPLAY | Liferay : accélérez le développement de vos applications digitales avec une plateforme low-code souveraine

Dans un marché en constante évolution, la rapidité de déploiement des expériences et applications digitales est essentielle pour garder une longueur d’avance. 70% des entreprises considèrent l’accélération du Time to...

Actualités Data et IA

Revue de presse Data & IA – Avril 2025

Quelles sont les actualités qu’il ne fallait pas manquer dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : l'entreprise Bleu franchit la première étape vers la qualification...

Comprendre l'IA et la Data Science

Data Engineer : quelles formations privilégier ?

Comprendre l'IA et la Data Science

REPLAY | Introduction à la Data Science

Nos webinars dédiés à la Data Science vous donneront toutes les clés pour démystifier et faciliter l’adoption de la data science au sein des entreprises, créer de la valeur et...

Intégrer l'IA et la Data Science

Méthode CRISP : la clé de la réussite en Data Science

La méthode CRISP (initialement connue comme CRISP-DM) a été au départ développée par IBM dans les années 60 pour réaliser les projets Datamining. Elle reste aujourd’hui la seule méthode utilisable...

Data Engineer : quelles formations privilégier ?

Data Engineer : quelles formations privilégier ?

« Un Data Engineer est d’abord un informaticien »

Spark devient incontournable

Mener un projet d’IA

Formation technique et conduite de projet

Découvrez aussi

Identités numériques : tout comprendre sur ce domaine en pleine évolution

REPLAY | FinOps : Comment un grand groupe a réduit de 70% la facture d’un projet cloud ?

[Data Rider] REX Collecte de données IoT – Étape 1 : Initier la collecte

Revue de presse Data & IA – Mai 2025

REPLAY | Accessibilité numérique, secteur privé et évolution de la législation : cap sur la mise en conformité

REPLAY | Réinventez vos parcours métiers grâce à l’IA, au Low-Code et au Cloud Native

Copilotage Intelligent avec Microsoft Azure : Approche d’architecture pilotée par les indicateurs de performance

Présent et futur de l’IA : quelle trajectoire pour les entreprises ?

REPLAY | Azure Arc ou comment optimiser vos usages Microsoft on premise

REPLAY | Liferay : accélérez le développement de vos applications digitales avec une plateforme low-code souveraine

Revue de presse Data & IA – Avril 2025

Data Engineer : quelles formations privilégier ?

REPLAY | Introduction à la Data Science

Méthode CRISP : la clé de la réussite en Data Science

Informations sur la gestion de vos données et vos droits