Accueil > Data Science / IA > Comprendre l'IA et la Data Science > Comment valoriser vos données RH grâce au Machine Learning ?

Comprendre l'IA et la Data Science

Comment valoriser vos données RH grâce au Machine Learning ?

25 avril 2017 Modifié le 26 avril 2023

Julien Renault

Toutes les entreprises d’une certaine taille et avec une certaine ancienneté ont des données RH très simples par salarié. Or, ces mêmes données peuvent aussi être valorisées d’une toute autre manière grâce au machine learning.

Toutes les entreprises d’une certaine taille et avec une certaine ancienneté ont des données RH très simples par salarié du type ancienneté, temps de travail mensuel, salaire, résultats de la dernière évaluation, promotion lors des 5 dernières années, etc. Or, ces mêmes données peuvent aussi être valorisées d’une toute autre manière grâce au machine learning.

Les données RH : une source encore peu exploitée

Dans beaucoup d’entreprises, le département RH livre, grâce aux données dont ils disposent, des analyses descriptives et des tableaux de bords qui répondront à des questions simples comme :

Quel est le salaire moyen dans le département Marketing ?
Quelle est la distribution de l’ancienneté au sein du siège social ?
Combien de personnes travaillent au sein de l’équipe Achats ?

Le machine learning permet d’aller encore plus loin. En effet, si on classifie ces données RH en fonction d’un résultat tel que « l’employé a quitté l’entreprise en 2016 », on entre dans le domaine prédictif. Cela permet au département des Ressources Humaines de comprendre non seulement les raisons du turnover parmi les salariés, mais aussi de prévoir ce qui va se passer dans les mois qui viennent, ceci avec une très bonne précision.

Les algorithmes de classification supervisée

REPLAY

CRM : comment la Région Bretagne a déployé son projet de Relation Usagers ?

Le modèle que nous devons concevoir est donc un modèle de classification supervisée, car nous voulons classer les employés selon leur risque de quitter l’entreprise. Un modèle de classification non supervisée (clustering) chercherait à classer les employés sans prendre en compte ce risque, mais en se basant simplement sur leurs similarités statistiques.

Dans le cas présent, nous souhaitons ainsi trouver les groupes de salariés plus ou moins enclins à démissionner prochainement.

A partir d’un fichier disponible sur le site Kaggle.com (voir encadré), nous allons comparer les performances de 9 algorithmes différents tels que les arbres de décision ou les machines à vecteur de support.

Nous avons sept variables prédictives par employé en plus du statut (toujours en poste ou pas) :

Niveau de satisfaction
Accident de travail
Promotion lors des 5 dernières années
Ancienneté dans la société
Dernière évaluation
Temps de travail mensuel moyen
Nombre de projets effectués

Le point sur les principales méthodes de classification en Data Science

Avant d’explorer les résultats de chaque modèle, il est utile de faire le point sur les principales méthodes de classification utilisées en data science, de l’algorithme le plus ancien au plus récent.

Le Machine Learning appliqué aux données RH

1. L’analyse discriminante linéaire (LDA) est une méthode relativement ancienne liée à l’analyse de variance et à l’analyse en composantes principales. C’est donc une méthode de réduction de la dimensionnalité des données qui extrait plusieurs composantes de corrélation minimale à partir de l’ensemble des données.

2. Le réseau de neurones (NNET) est une méthode inspirée schématiquement du fonctionnement des neurones biologiques. Néanmoins, elle est considérée comme une « boîte noire » tant elle reste compliquée à expliquer.

3. Le modèle linéaire généralisé (GLM) permet de construire un modèle linéaire avec des erreurs non normalement distribuées.

4. Les arbres de classification (CART), autrement appelés arbres de décision, permettent de représenter les données sous forme d’un arbre. Chaque extrémité (ou branches) de celui-ci est une combinaison unique des variables de la base.

5. La régression spline (MARS) est une forme de modèle de régression avec ajout de fonctions charnières pour prendre en compte localement des non-linéarités .

6. La machine à vecteurs de support (SVM) est dérivée d’autres méthodes comme la régression logistique ou l’analyse discriminante linéaire. Cette dernière consiste à chercher une frontière de séparation de distance maximale avec les échantillons les plus proches (appelés vecteurs supports).

7. L’adaptive boosting (ADA) est une des plus anciennes méthodes de boosting. L’idée est de créer une prédiction qui performe bien en agrégeant un ensemble de prédicteurs « faibles » (ici des arbres de décision).

8. Le gradient boosting (XGB) est une autre méthode de boosting plus récente, très utilisée dans les compétitions de Data Science.

9. Les forêts d’arbres décisionnels (RF) consistent en un échantillonnage multiple de sous arbres de classification, au niveau des variables aussi bien que des observations.

Déroulement de la classification

La première étape d’une classification consiste à explorer et préparer les données, en examinant tout d’abord la distribution des variables et les corrélations entre variables. Nous ne rentrerons pas dans le détail et assumerons que notre jeu de données RH obéit aux hypothèses fondamentales préalables à une bonne classification.

Afin de construire chacun des modèles et ensuite tester leur performance, il est commun de séparer le jeu de données en 2 avec 75% pour la construction et 25% pour le test. Dans notre cas, il est important de conserver la même proportion de personnes ayant quitté l’entreprise dans les 2 échantillons, en l’occurrence 24%.

Nous nous assurerons d’obtenir les meilleurs modèles en opérant ce que l’on appelle une « cross-validation ». Cela qui consiste à construire les modèles à partir de sous-échantillons aléatoires et de les tester à chaque fois afin d’obtenir le meilleur paramétrage pour chacun. Dans notre étude nous allons faire 10 tirages aléatoires.

Estimation de la performance des modèles

Il existe plusieurs façons d’estimer la performance d’un modèle, telles que :

La précision : le modèle a fait une prédiction correcte
La spécificité : le modèle a correctement prédit les cas où l’événement ne s’est pas produit
La sensibilité : le modèle a correctement prédit les cas où l’événement s’est produit

Les graphiques ci-dessous donnent les moyennes de ces mesures par modèle :

Estimation de la performance des modèles

Nous voyons clairement que les Random Forest et Gradient Boosting performent le mieux. A contrario, les analyses discriminantes et les modèles linéaires généralisés font piètre figure.

Par ailleurs, quand la question du choix d’un unique modèle final se pose, il est utile de comparer les distributions de ces mesures de performance. Ceci peut alors être fait à l’aide des résultats de « cross-validation », où nous avons 10 mesures de sensibilité et de spécificité pour chaque modèle.

Les graphiques ci-dessous montrent de gauche à droite le minimum, le 1er quartile, la médiane, le 3ème quartile et le maximum. Ils permettent de valider :

la supériorité des RF sur le XGB dans notre cas, avec des distributions bien plus resserrées autour de la médiane pour RF que XGB, ce qui assure une meilleure stabilité du modèle.
le caractère trop aléatoire des résultats issus d’arbres aléatoires simples (type CART).
le gros problème de faible spécificité des modèles LDA er GLM.

Machine Learning : Machine Learning : Estimation de la performance des modèles

Ce que l’on peut en conclure

1. Nous avons montré que 99% des cas sont correctement prédits.

Trop beau pour être vrai ? Sans doute. En effet, les données RH peuvent différer entre entreprises en raison de problèmes de cohérence des mesures ou tout simplement de moyens humains pour les traiter. Cette étude a pour but d’illustrer la théorie par l’exemple, mais dans un cas ou l’application est facilement déployable.

En admettant que ce pourcentage soit inférieur, il reste cependant une grande marge permettant d’améliorer la gestion RH dans tous les cas.

2. Le même type d’analyse peut s’appliquer à tout problème où l’on cherche à prédire un événement simple :

Mon client va-t-il résilier son contrat le mois prochain ? Ce nouveau client est-il potentiellement un fraudeur ? Lesquels de mes clients auront le plus envie d’acheter mon nouveau produit ? Un patient va-t-il souffrir d’effets secondaires si je lui administre tel ou tel médicament ? etc.

3. Nous avons vu que les algorithmes de classification les plus récents sont les plus précis.

Chaque compagnie qui voudra appliquer un de ces modèles va choisir le mieux adapté à son environnement, selon le volume des données et le marché cible. Certaines compagnies se contenteront ainsi d’algorithmes moins précis mais plus rapides et mieux interprétables. D’autres seront en revanche prêtes à investir en puissance de calcul afin d’obtenir une précision maximale.

Il faut donc placer le curseur au cas par cas en fonction du but recherché, des moyens disponibles et de l’aversion au risque.

Vous souhaitez en savoir plus sur l’utilisation du Machine Learning ? Business & Decision est là pour vous accompagner. N’hésitez pas à nous contacter.

Business & Decision

Julien Renault est Domain Leader en Advanced Analytics à l’agence Business & Decision de Lille.

Commentaire (1)

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.

Hadji Le 05 février 2019 à 10h58

j'aimerais effectuer un analyse des sentiments sur des données RH (conernant la gestion des ressources internes, de recrutement, de personnel et de carrière...) en se basant sur les microservices,,, Mais le problème ce que je ne dispose pas de données RH, Bref, je voulais savoir ou je peux appliquer le ML dans ce contexte

Sécurité des données

Identités numériques : tout comprendre sur ce domaine en pleine évolution

L'identité numérique est au cœur des interactions en ligne, des transactions commerciales, des processus administratifs et de la protection des données personnelles. Elle englobe non seulement la manière dont les...

Premium

Innovations Cloud

REPLAY | FinOps : Comment un grand groupe a réduit de 70% la facture d’un projet cloud ?

La maîtrise des coûts liés au cloud représente un enjeu crucial pour les entreprises en 2025. Cette vidéo, réalisée sous forme de webinar, met en lumière l'expérience d'un client ayant...

IoT et objets connectés

[Data Rider] REX Collecte de données IoT – Étape 1 : Initier la collecte

Vous êtes-vous déjà dit que la partie « collecte de données » d’une chaîne de données était une partie relativement simple d’un projet ? Dans cette série d’articles, nous expliquons pourquoi, selon nous,...

Actualités Data et IA

Revue de presse Data & IA – Mai 2025

Quelles sont les actualités qu’il ne fallait pas manquer dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : Salesforce s’offre Informatica, Meta va entraîner ses systèmes d'IA...

Premium

Innovation

REPLAY | Accessibilité numérique, secteur privé et évolution de la législation : cap sur la mise en conformité

Dans un monde de plus en plus digitalisé, l’accessibilité numérique est devenue un impératif. Elle garantit que chacun, quels que soient ses capacités ou ses outils, puisse accéder aux contenus...

Premium

Transformation digitale

REPLAY | Réinventez vos parcours métiers grâce à l’IA, au Low-Code et au Cloud Native

Les attentes des clients et des collaborateurs évoluent de plus en plus vite. Ainsi, pour rester compétitif, il ne suffit plus d’innover, il faut le faire vite, bien et en...

Solutions technologiques

Copilotage Intelligent avec Microsoft Azure : Approche d’architecture pilotée par les indicateurs de performance

Les avancées en intelligence artificielle générative, notamment via les LLMs (Large Language Models), ouvrent des perspectives inédites d’amplification des capacités humaines dans les entreprises. Comme l’ont souligné Brynjolfsson et McAfee...

Stratégie Data

Présent et futur de l’IA : quelle trajectoire pour les entreprises ?

L’ascension de ChatGPT a été fulgurante, et a propulsé l'intelligence artificielle, notamment l'IA générative, sur le devant de la scène. Jamais une technologie n’est allée aussi vite dans son adoption...

Premium

Solutions technologiques

REPLAY | Azure Arc ou comment optimiser vos usages Microsoft on premise

Comment maximiser la sécurité et l'efficacité de votre infrastructure ? Azure Arc peut transformer la gestion de vos serveurs SQL et Windows tout en restant sur site. Nos explications en...

Premium

Solutions technologiques

REPLAY | Liferay : accélérez le développement de vos applications digitales avec une plateforme low-code souveraine

Dans un marché en constante évolution, la rapidité de déploiement des expériences et applications digitales est essentielle pour garder une longueur d’avance. 70% des entreprises considèrent l’accélération du Time to...

Actualités Data et IA

Revue de presse Data & IA – Avril 2025

Quelles sont les actualités qu’il ne fallait pas manquer dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : l'entreprise Bleu franchit la première étape vers la qualification...

Stratégie Data

Les enjeux IA & Data 2025 : entre course à l'IA générale et réalité terrain

Alors que la course vers une IA générale mobilise des ressources considérables, les entreprises sont confrontées à des enjeux beaucoup plus concrets. Loin des effets d’annonce, il est impératif de...

Premium

Transformation digitale

REPLAY | CSRD : Les secrets d'une approche Data ESG performante

La CSRD, récemment bousculée par l’Omnibus de la Commission Européenne, continue de transformer le reporting extra-financer. Il devient alors essentiel pour les entreprises d’intégrer l’ESG au cœur de leur stratégie....

Premium

Migration vers le cloud

REPLAY | Réussissez votre migration vers le cloud : Stratégie et Retour d'expérience avec Bleu

Les entreprises et administrations publiques sont soumises à de fortes exigences en matière de confidentialité. Comment allier innovation et maîtrise des données ? Retour d’expérience pour réussir votre migration vers le...

Comment valoriser vos données RH grâce au Machine Learning ?

Les données RH : une source encore peu exploitée

Les algorithmes de classification supervisée

Le point sur les principales méthodes de classification en Data Science

Déroulement de la classification

Estimation de la performance des modèles

Ce que l’on peut en conclure

1. Nous avons montré que 99% des cas sont correctement prédits.

2. Le même type d’analyse peut s’appliquer à tout problème où l’on cherche à prédire un événement simple :

3. Nous avons vu que les algorithmes de classification les plus récents sont les plus précis.

Découvrez aussi

Identités numériques : tout comprendre sur ce domaine en pleine évolution

REPLAY | FinOps : Comment un grand groupe a réduit de 70% la facture d’un projet cloud ?

[Data Rider] REX Collecte de données IoT – Étape 1 : Initier la collecte

Revue de presse Data & IA – Mai 2025

REPLAY | Accessibilité numérique, secteur privé et évolution de la législation : cap sur la mise en conformité

REPLAY | Réinventez vos parcours métiers grâce à l’IA, au Low-Code et au Cloud Native

Copilotage Intelligent avec Microsoft Azure : Approche d’architecture pilotée par les indicateurs de performance

Présent et futur de l’IA : quelle trajectoire pour les entreprises ?

REPLAY | Azure Arc ou comment optimiser vos usages Microsoft on premise

REPLAY | Liferay : accélérez le développement de vos applications digitales avec une plateforme low-code souveraine

Revue de presse Data & IA – Avril 2025

Les enjeux IA & Data 2025 : entre course à l'IA générale et réalité terrain

REPLAY | CSRD : Les secrets d'une approche Data ESG performante

REPLAY | Réussissez votre migration vers le cloud : Stratégie et Retour d'expérience avec Bleu

Informations sur la gestion de vos données et vos droits