Accueil > Data Science / IA > Comprendre l'IA et la Data Science > Data scientist ? Une simple question d’intuition !

Comprendre l'IA et la Data Science

Data scientist ? Une simple question d’intuition !

19 novembre 2015 Modifié le 4 mai 2023

On ne comprend pas l'internaute si on ne comprend pas Internet, et il n'est pas possible de comprendre Internet sans comprendre les comportements individuels des internautes... Heureusement, les Data Scientists sont là pour vous aider à comprendre !

L’intuition des scientifiques ou la raison des ingénieurs ? Avec les blogs, réseaux sociaux, sites ou encore chaînes de mails, les fausses informations se répandent à grande vitesse et peuvent facilement être prises pour argent comptant.

Ce n’est pas nouveau, sur Internet on trouve de tout…

Les canulars sur le net sont nombreux et de toute nature. Ainsi le 11 septembre n’aurait jamais existé, le fils de la ministre Christine Taubira serait en prison pour meurtre et EDF nous volerait sournoisement 1€ sur chacune de nos factures…

Tous les canulars ne cherchent pas à être pris au sérieux mais pourtant la plupart d’entre eux sont bien souvent repris par les internautes qui croient en leur authenticité. Pascal Froissart, maître de conférences à l’université Paris 8, explique qu’une « rumeur fonctionne parce qu’on écrit dessus. Les gens croient ce qu’on leur donne à lire, même quand on leur dit que c’est faux.». En ce sens, nous nous souvenons tous, avec plus ou moins de malaise, de Christine Boutin citant le Gorafi pour appuyer ses propos à l’encontre du gouvernement. L’ancienne ministre n’avait pas su voir que le site parodique se moquait dans son article des éléments du langage bureaucratique.

La première intuition n’est pas toujours la bonne

REPLAY

CRM : comment la Région Bretagne a déployé son projet de Relation Usagers ?

Même si cela est tentant, prévenons-nous rapidement de tirer sur l’ambulance. La problématique soulevée ici est concrète : la première intuition n’est pas toujours la bonne, alors comment détecter le vrai du faux, l’exploitable de l’inexploitable ?

Cette problématique, nous la côtoyons tous les jours dans nos projets. Prenons l’exemple de l’humour. Supposons que vous deviez analyser des données issues d’un réseau social public. Le second degré n’étant pas, par définition, une donnée exploitable par un système d’information vous décidez de filtrer tous les lolcats, les WTF, les tumblrs, les dessins humoristiques et les blagues d’humour.net.

Dans votre tamis, il ne reste que vos données « exploitables » et vous décidez de démarrer vos analyses. En vain. Car, l’humour faisant partie intégrante de la sphère internet, en omettant cette part d’ « infos poubelle », votre observation est d’ores et déjà faussée et vos conclusions le seront tout autant. Parlez-en à Schrödinger, il a fait la même erreur avec son chat…

Question d’intuition…

Ne vous est-il jamais arrivé de produire un tableau de bord avec le sentiment de mettre en évidence de fausses conclusions, de produire des indicateurs à partir de données que vous saviez erronées, tronquées ou de mauvaise qualité ? Allons, ne me dites pas qu’il ne vous est jamais arrivé de critiquer une règle de gestion, de penser en parcourant des spécifications fonctionnelles « C’est débile ! », « On peut faire dire ce qu’on veut à ces chiffres », ou « Cet indicateur n’a aucun sens »…

Toujours pas convaincu ? Prenons un exemple simple. Supposons qu’on me demande de traiter de la répartition géographique d’un ensemble d’agences bancaires sur le territoire français. Je dispose d’un fichier sur lequel figurent le nombre d’agences bancaires et le nombre d’habitants par ville. Fastoche ! J’intègre mon fichier et je représente ces deux attributs sur un modèle Géo-BI. J’obtiens une belle carte de France sur laquelle apparaissent mes agences. Super fastoche !

Mais c’est pas fini

Dans un second temps, on me demande de représenter la densité d’agences par habitant. Hyper fastoche ! Je crée un attribut calculé adimensionnel dans lequel je stocke le quotient « nombre d’agences / nombre d’habitants ». Et là, c’est le drame !

La carte de France démontre une densité d’agence faible dans les grandes villes. L’indice passe de 6 % en couronne périphérique à 3,5 % en centre-ville (soit une diminution de presque 40% !). Qu’en conclure ? Que les grandes villes manquent d’agences bancaires ? Que ce réseau bancaire doit impérativement développer une politique de reconquête des centres villes ? Et que s’il ne réagit pas rapidement, il finira par mettre la clé sous la porte, le couvert sur la marmite et la cabane sur le chien ?

La vérité est ailleurs

La vérité est évidemment ailleurs… Tout simplement, cet indicateur n’a aucun sens car il n’est pas rapproché à la spécificité des agences du centre-ville : leur capacité d’accueil, leur superficie, leur maillage, le nombre de conseillers qui y travaillent. Et quid de l’architecture du centre-ville, des moyens de transport,… J’entends d’ici les « Ah ben oui, mais c’était pas dans les specs ! », ceux-là même à qui on répétait en classe qu’il ne faut pas additionner les choux et les carottes.

Ces approximations qui nous déconstruisent

Ces approximations que nous faisons régulièrement contribuent à alimenter notre quotidien. On voit fleurir ici et là des dizaines d’études qui démontrent tout et son contraire. « Le monde appartient à ceux qui se lèvent tôt. » nous dit le proverbe, sauf qu’une étude britannique rendue publique par « Personnality and Individual Differences », démontrerait plutôt que les gens intelligents se couchent tard et se lèvent, donc, en moyenne, une demi-heure plus tard que les « QI faibles ».

Début novembre 2015, on apprend par des chercheurs finlandais que les gens intelligents non seulement se coucheraient tard, mais qu’en plus ils buveraient plus d’alcool que les autres. Et je ne vous parle même pas de leur consommation de psychotropes !

Par ailleurs, indiquent, encore des chercheurs américains (toujours à la même période), être marié donnerait plus de chances de survivre à une opération cardiaque. Sauf peut-être si on mange beaucoup de viande, puisqu’on sait depuis peu que la consommation de charcuterie accroit probablement le risque de cancer…

Des corrélations certes, mais est-ce toujours vrai ?

Le point commun à chacune de ces études ? Elles sont basées sur des corrélations, des courbes qui montent ou descendent en parallèle, des cartes qu’on superpose et qui peuvent laisser croire à une causalité : un lien direct et évident entre l’alcool et le QI, entre la France « Charlie » du 11 janvier et les zones de déchristianisation récente, entre le saucisson et le cancer colorectal.

Parfois c’est vrai, c’est prouvé. Et parfois, ça a autant de valeur scientifique qu’un reportage sur NRJ12… Allez donc voir la façon dont ces pseudo-études sont tournées en dérision par des universitaires américains. Vous avez les adeptes du sparrowisme, du nom de Jack Sparrow le héros de Pirates des Caraïbes, doctrine qui établit une relation évidente entre la baisse du nombre de pirates dans les mers du globe et la hausse des températures. Moins y a de pirates et plus ça se réchauffe. Logique !

Attention aux fausses conclusions sur des données mal construites

Certes, c’est drôle, mais allez voir : les courbes sont convaincantes, les corrélations troublantes… Essayez de les transposer à des domaines plus complexes auxquels vous êtes confrontés chaque jour – citons le réglementaire financier – et voyez comme la tentation est grande d’établir de fausses conclusions sur des données mal traitées.

Qu’est-ce que j’essaie de démontrer ici ? Qu’il est important, aujourd’hui plus que jamais, d’aiguiser son œil critique, de généraliser le fact-checking, de développer son libre arbitre, d’écouter son intuition et de ne pas se laisser enfermer dans des modèles de pensées prédéfinis. Dans un système complexe, il est « impossible de connaître les parties sans connaître le tout. » écrit Edgar Morin, philosophe et spécialiste du big data dans son livre « Sciences avec Conscience ». On ne comprend pas l’internaute si on ne comprend pas Internet, et il n’est pas possible de comprendre Internet sans comprendre les comportements individuels des internautes.

La technologie progresse mais…

La technologie progresse mais elle est, pour l’heure, insuffisante. Aucun ordinateur au monde n’est, actuellement, capable de traiter l’entièreté de l’information qui est générée au fil du temps. Quand chaque appareil électroménager, téléphone, compteur biométrique, instrument de mesure scientifique, etc. génère chaque seconde de la donnée, il est impensable de vouloir traiter l’entièreté des données à notre disposition.

Analyser ou échantillonner les réseaux sociaux s’avère tout aussi périlleux (je ne parle pas de question éthique). Le caractère des comportements observés y est trop complexe : ces derniers sont trop volatiles, sujets à l’approximation ou aux ressentiments des internautes qui les alimentent.

Devenez sorciers, devenez savants

La première conclusion à tirer de cette analyse est qu’il ne faut en faire aucune. Surtout quand elles sont trop hâtives. La science nous enseigne d’abord la prudence.

Mais, la seconde conclusion est paradoxalement de penser grand ! Ne vous restreignez pas, soyez inventifs, jouez avec vos données.

DataScientist Think bigger / intuition — « Pensez grand, rêvez encore plus grand… » et laissez votre intuition parler !

Ne vous restreignez pas

Au plus vos modèles seront complexes, au plus ils tendront vers la réalité. Dans votre laboratoire, introduisez de l’hétérogénéité : de la profondeur d’historique, des données de géolocalisation, des données météo, des données liées à l’actualité, etc… et, dans votre cornu, mélangez le tout.

Soyez inventifs

Fuyez les modèles classiques. Une des erreurs du marketing consiste en effet à ne proposer aux consommateurs que des produits basés sur des analyses volumétriques de parcours. « Ceux qui ont aimé X, on également acheté Y ». Or, il suffit pourtant de traîner quelques minutes devant une salle de concert pour comprendre que « ceux » qui écoutent Daft Punk, ont, non seulement, écouté la discographie de DJ Shadow et Nile Rodgers, mais sont également souvent incollables sur Erik Satie et Bach. A l’inverse, ils fuient la musique mainstream et se retrouvent davantage dans l’underground. Pourtant, si vous tapez « Daft Punk » sur un moteur d’achat en ligne, c’est rarement Herbie Hancock qui ressort dans les premières occurrences.

Jouez avec vos données

Amusez-vous, tentez des mélanges contre-nature. L’exemple du second degré comme composante d’analyse mérite, à mon sens, qu’on se penche sur le sujet. Mais n’oubliez pas que jouer, c’est aussi apprendre à perdre. En mélangeant tout et n’importe quoi, attendez-vous à tout faire sauter dans votre labo ! Mais ne baissez pas les bras et surtout recommencez.

Et vous savez quoi ? C’est une bonne nouvelle… Car c’est là toute l’âme de la science et de notre métier. Je ne fais qu’enfoncer le clou en insistant encore lourdement (trop ?) sur un des points que j’avais soulevé précédemment sur ce blog : chez le data scientist, le plus important c’est le scientifique pas le technicien.

Ainsi, notre métier ne consiste pas à aligner des 0 et des 1, à croiser des attributs, à construire des hiérarchies mais à les comprendre et à les relier. C’est cela l’enjeu de la complexité ! Dans le big data, il faut s’attendre à trouver ce qu’on ne cherchait pas. Mais si tu trouves l’Amérique en cherchant l’Inde et que tu t’arrêtes là en concluant que tu as trouvé une route plus courte pour y arriver, c’est que tu as fait fausse route !

Business & Decision

– Plus de dix ans d’expérience en SSII – Spécialisation fonctionnelle: gestion à l’affaire, calcul de coût (méthode ABC), gestion réglementaire des banques (volet liquidités actif/passif ). – Spécialisation operationnelle: implémentation de datawarehouses (SSIS, Talend, Informatica, Qlik view), base de données SQL et transactionnel (SQL…

Commentaire (1)

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.

NICOLAS GUILLON Le 19 novembre 2015 à 17h44

“La chance ne sourit qu'aux esprits bien préparés.” Louis Pasteur

Sécurité des données

Identités numériques : tout comprendre sur ce domaine en pleine évolution

L'identité numérique est au cœur des interactions en ligne, des transactions commerciales, des processus administratifs et de la protection des données personnelles. Elle englobe non seulement la manière dont les...

Premium

Innovations Cloud

REPLAY | FinOps : Comment un grand groupe a réduit de 70% la facture d’un projet cloud ?

La maîtrise des coûts liés au cloud représente un enjeu crucial pour les entreprises en 2025. Cette vidéo, réalisée sous forme de webinar, met en lumière l'expérience d'un client ayant...

IoT et objets connectés

[Data Rider] REX Collecte de données IoT – Étape 1 : Initier la collecte

Vous êtes-vous déjà dit que la partie « collecte de données » d’une chaîne de données était une partie relativement simple d’un projet ? Dans cette série d’articles, nous expliquons pourquoi, selon nous,...

Actualités Data et IA

Revue de presse Data & IA – Mai 2025

Quelles sont les actualités qu’il ne fallait pas manquer dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : Salesforce s’offre Informatica, Meta va entraîner ses systèmes d'IA...

Premium

Innovation

REPLAY | Accessibilité numérique, secteur privé et évolution de la législation : cap sur la mise en conformité

Dans un monde de plus en plus digitalisé, l’accessibilité numérique est devenue un impératif. Elle garantit que chacun, quels que soient ses capacités ou ses outils, puisse accéder aux contenus...

Premium

Transformation digitale

REPLAY | Réinventez vos parcours métiers grâce à l’IA, au Low-Code et au Cloud Native

Les attentes des clients et des collaborateurs évoluent de plus en plus vite. Ainsi, pour rester compétitif, il ne suffit plus d’innover, il faut le faire vite, bien et en...

Solutions technologiques

Copilotage Intelligent avec Microsoft Azure : Approche d’architecture pilotée par les indicateurs de performance

Les avancées en intelligence artificielle générative, notamment via les LLMs (Large Language Models), ouvrent des perspectives inédites d’amplification des capacités humaines dans les entreprises. Comme l’ont souligné Brynjolfsson et McAfee...

Stratégie Data

Présent et futur de l’IA : quelle trajectoire pour les entreprises ?

L’ascension de ChatGPT a été fulgurante, et a propulsé l'intelligence artificielle, notamment l'IA générative, sur le devant de la scène. Jamais une technologie n’est allée aussi vite dans son adoption...

Premium

Solutions technologiques

REPLAY | Azure Arc ou comment optimiser vos usages Microsoft on premise

Comment maximiser la sécurité et l'efficacité de votre infrastructure ? Azure Arc peut transformer la gestion de vos serveurs SQL et Windows tout en restant sur site. Nos explications en...

Premium

Solutions technologiques

REPLAY | Liferay : accélérez le développement de vos applications digitales avec une plateforme low-code souveraine

Dans un marché en constante évolution, la rapidité de déploiement des expériences et applications digitales est essentielle pour garder une longueur d’avance. 70% des entreprises considèrent l’accélération du Time to...

Actualités Data et IA

Revue de presse Data & IA – Avril 2025

Quelles sont les actualités qu’il ne fallait pas manquer dans les secteurs de la Data et de l’Intelligence artificielle ? Au programme : l'entreprise Bleu franchit la première étape vers la qualification...

Stratégie Data

Les enjeux IA & Data 2025 : entre course à l'IA générale et réalité terrain

Alors que la course vers une IA générale mobilise des ressources considérables, les entreprises sont confrontées à des enjeux beaucoup plus concrets. Loin des effets d’annonce, il est impératif de...

Premium

Transformation digitale

REPLAY | CSRD : Les secrets d'une approche Data ESG performante

La CSRD, récemment bousculée par l’Omnibus de la Commission Européenne, continue de transformer le reporting extra-financer. Il devient alors essentiel pour les entreprises d’intégrer l’ESG au cœur de leur stratégie....

Premium

Migration vers le cloud

REPLAY | Réussissez votre migration vers le cloud : Stratégie et Retour d'expérience avec Bleu

Les entreprises et administrations publiques sont soumises à de fortes exigences en matière de confidentialité. Comment allier innovation et maîtrise des données ? Retour d’expérience pour réussir votre migration vers le...

Data scientist ? Une simple question d’intuition !

Ce n’est pas nouveau, sur Internet on trouve de tout…

La première intuition n’est pas toujours la bonne

Question d’intuition…

Mais c’est pas fini

La vérité est ailleurs

Ces approximations qui nous déconstruisent

Des corrélations certes, mais est-ce toujours vrai ?

Attention aux fausses conclusions sur des données mal construites

La technologie progresse mais…

Devenez sorciers, devenez savants

Ne vous restreignez pas

Soyez inventifs

Jouez avec vos données

Découvrez aussi

Identités numériques : tout comprendre sur ce domaine en pleine évolution

REPLAY | FinOps : Comment un grand groupe a réduit de 70% la facture d’un projet cloud ?

[Data Rider] REX Collecte de données IoT – Étape 1 : Initier la collecte

Revue de presse Data & IA – Mai 2025

REPLAY | Accessibilité numérique, secteur privé et évolution de la législation : cap sur la mise en conformité

REPLAY | Réinventez vos parcours métiers grâce à l’IA, au Low-Code et au Cloud Native

Copilotage Intelligent avec Microsoft Azure : Approche d’architecture pilotée par les indicateurs de performance

Présent et futur de l’IA : quelle trajectoire pour les entreprises ?

REPLAY | Azure Arc ou comment optimiser vos usages Microsoft on premise

REPLAY | Liferay : accélérez le développement de vos applications digitales avec une plateforme low-code souveraine

Revue de presse Data & IA – Avril 2025

Les enjeux IA & Data 2025 : entre course à l'IA générale et réalité terrain

REPLAY | CSRD : Les secrets d'une approche Data ESG performante

REPLAY | Réussissez votre migration vers le cloud : Stratégie et Retour d'expérience avec Bleu

Informations sur la gestion de vos données et vos droits