En 2012, Harvard Business Review publiait déjà un article au titre révélateur : « Data Scientist est la fonction la plus sexy du 21e siècle ». Sept ans après, revenons sur cette vision à la lumière des évolutions technologiques, en particulier avec l’Intelligence Artificielle. Ce métier crée un véritable engouement et c’est tant mieux. Pour le réussir, il faut conjuguer l’acquisition des compétences techniques, l’expérience des cas concrets et surtout, un parcours d’apprentissage jalonné.
Data Scientist : un professionnel aux compétences approfondies
Un Data Scientist définit un professionnel qui possède des compétences approfondies à la fois en statistique multivariée, en Machine Learning, en analyse prédictive et en programmation, ainsi que des connaissances poussées des processus métier sur lesquels il travaille, comme l’explique un récent article de KDnuggets par Andrew Silver.
La programmation en Data Science n’est pas une programmation au sens développeur traditionnel du terme. Elle repose sur l’utilisation des librairies Data Science du langage Python comme Pandas, SciKit-Learn ou encore MLlib qui nécessitent d’avoir des bases théoriques solides en statistique et en Machine Learning. Cette programmation est rendue d’autant plus pointue qu’elle peut s’appuyer sur des architectures Big Data comme Hadoop ou Spark, nécessitant à leur tour une connaissance technique approfondie avant même de commencer à programmer. Cette hyper-spécialisation a conduit, depuis plusieurs années, à la naissance à une nouvelle fonction : Data Engineer.
Data Engineer : le spécialiste Big Data de la Data Science
Le Data Engineer maîtrise parfaitement les écosystèmes Big Data tels que Spark ou Hadoop, parmi d’autres, et, bien entendu, les méthodes et techniques de programmation associées. Le Data Engineer va notamment assurer les rôles suivants :
- rendre opérationnelle l’infrastructure Big Data,
- assurer l’ingestion et l’exposition des données dans ou depuis l’infrastructure,
- réaliser la préparation et le recodage 1er niveau des données,
- programmer, automatiser et optimiser les algorithmes dans l’infrastructure cible.
Le métier de Data Engineer évolue vers un autre nouveau métier : Data Architect, ou architecte en Data Science.
Data Scientist : un parcours complémentaire
Le Data Scientist a un parcours complémentaire à celui de Data Engineer puisque son rôle consiste non seulement à maîtriser, à un degré plus important, les domaines des statistiques et des algorithmes, mais également la dimension métier et les besoins des fonctions d’entreprise. Ainsi, le Data Scientist s’appuie sur le Data Engineer pour les aspects les plus techniques.
« Imaginer qu’un Data Scientist peut tout faire à lui seul est irréaliste »
Ce découpage est logique, reconnu dans la profession, et fonctionne. Imaginer qu’un Data Scientist sera capable de tout faire à lui seul est vraiment irréaliste. En effet, afin d’acquérir les compétences métier indispensables et pour se maintenir à jour dans les compétences algorithmiques et Machine Learning, le Data Scientist devra, inévitablement, faire certaines impasses techniques notamment en programmation et en infrastructure.
Des personnes aux profils très différents peuvent devenir Data Engineer et Data Scientist. Issus d’écoles d’ingénieur ou d’universités, les jeunes diplômés, fort d’un bagage technique conséquent, devront acquérir expérience et maturité pour comprendre et intégrer les enjeux du client, pour déployer un ensemble algorithmique global indispensable et être réellement ce que le Docteur Conway a initialement défini comme étant Data Scientist en 2016.
La compétence Data Science s’acquiert en plus d’une solide base théorique en statistique et en Machine Learning, grâce à une pratique intensive de résolution de problèmes d’analyse de données dans des environnements variés et des contextes clients différents. Le choix des algorithmes dans la phase de modélisation nécessite à lui seul une solide expérience. La plupart des algorithmes de Data Science et d’Intelligence Artificielle sont aujourd’hui dans le domaine public, ils sont donc en théorie accessibles à tous, mais pour autant ne peuvent pas tous être enseignés dans un cursus d’apprentissage initial.
De Data Engineer à Data Scientist
C’est à partir de ces constats que nous orientons les jeunes diplômés en Data Science d’abord vers le métier de Data Engineer pour ensuite évoluer vers le métier de Data Scientist. Il est à noter que le volume de postes à pourvoir dans les entreprises de tous secteurs en Data Engineers est bien plus élevé qu’en Data Scientists. Rien d’étonnant, puisque 80 % du volume de travail en Data Science porte sur le recodage et la préparation des données. Des données mal préparées donneront inévitablement des résultats au pire faux et au mieux décevants.
De plus, il peut y avoir un chemin non négligeable à parcourir entre un prototype (appelé aussi POC) qui sert de test de faisabilité et une application Data Science automatisée en production et grandeur réelle : c’est là un domaine où le Data Engineer excelle.
Face aux enjeux de ces deux métiers ainsi posés, Business & Decision a créé son Ecole de la Data avec deux promotions de Data Engineers dès 2019. Les enseignements s’enrichiront au fil des promotions pour mettre la Data Science à portée des informaticiens qui souhaiteront évoluer vers ces domaines. Les jeunes talents qui nous rejoignent seront pleinement opérationnels après leur période passée à l’Ecole de la Data, entre enseignements théoriques complémentaires à leurs études et contribution concrète aux projets de nos clients.
Data Scientist, Data Engineer, Data Architect voilà trois fonctions toutes aussi sexy les unes que les autres, parce que, vous l’aurez compris, la Data Science n’est pas que l’affaire de spécialistes, c’est un véritable travail d’équipe !
Commentaire (1)
Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.