Les Big Data continuent à faire parler d’elles. Il y a même fort à parier que cela ne fasse que commencer. Et pourtant, pour le béotien, et même pour le marketeur averti, il n’est pas facile de cerner rapidement ce dont il s’agit.
Je dois avouer moi-même avoir eu du mal à comprendre dès le départ la véritable profondeur du concept (cf. mon article de l’an dernier sur ce sujet). C’est que le Big Data est une véritable révolution non seulement du Marketing (entre autres disciplines) mais aussi des modes de pensée.
Le saut quantique entre bases de données traditionnelles et architectures Big Data me fait penser à ce que j’ai vécu il y a plus de 20 dans le domaine des logiciels de 4ème génération (Mapper d’Unisys à l’époque) : les utilisateurs s’en emparaient avec passion (Santa Fe Railways, Iberia, Air France, etc.) il n’était pas rare de voir des utilisateurs développer des bases de données marketing fort sophistiquées avec un système que les informaticiens eux-mêmes regardaient avec horreur car il n’était pas “structuré”. Or, c’est cette souplesse même qui en faisait l’attrait et qui avait pour conséquence que les utilisateurs s’en emparaient rapidement. Il en est de même avec les Big Data aujourd’hui.
Il s’agit là de beaucoup plus qu’une simple technologie au service marketing, il s’agit plutôt d’une nouvelle philosophie du marketing de l’incertain. Avec les Big Data, on agrège des signaux faibles, on accumule non pas de la certitude, mais de l’incertitude ; on pose des hypothèses au fur et à mesure que l’on vérifie, croise, corrige et ainsi de suite … Tout ceci est très perturbant, non seulement pour les marketeurs habitués aux bases de données traditionnelles (le client est un client, un champ est un champ, un alphanumérique est un alphanumérique etc.) mais aussi pour les professionnels du marketing habitué au déterminisme : « ma cible est les jeunes de 25 ans urbains habitant à 10 km autour de Paris ».
Avec le Big Data, le point de départ est l’incertitude, le questionnement, l’absence de preuve ! On n’en déduira des certitudes qu’ultérieurement. Ce changement de paradigme est d’autant plus complexe, qu’il fait appel à des technologies sophistiquées, où l’on combine architectures traditionnelles et modernes. Pour compliquer encore la situation, certaines de ces architectures sont plutôt adaptées à des analyses « froides », d’autres à des analyses en temps réel.Et pourtant, les marketeurs vont devoir immanquablement se former et comprendre ce nouveau paradigme du marketing de l’incertain. Une démarche que j’ai entamée moi-même, avec mon partenaire Get+ autour du Retargeting B2B.
J’ai demandé à Patrick Bensabat, fondateur de business & decision, [transparence : qui est aussi mon client], d’aider mes lecteurs dans la description de ce nouveau phénomène des Big Data. Au travers de cette interview fleuve de près de 15 minutes, Patrick décrit les fondamentaux de cette nouvelle discipline que j’incite fortement mes lecteurs à appréhender, au-delà de la complexité de ce nouveau contexte et de ce nouveau paradigme, et des effets de bords produits par la mode qui fait “surfer” certains fournisseurs sur un concept plus riche qu’il n’y paraît.
Interview de Patrick Bensabat sur le Big Data et le Marketing de l’incertain
Quels sont les deux catégories de Big Data que l’on trouve sur le marché aujourd’hui ?
On peut alimenter différent types d’applications en Big Data. Les deux grandes familles d’applicatifs concernées sont d’une part le temps réel, où on va constituer du Big Data pour comprendre des comportements et réagir sur l’instant; d’autre part, il y a le Big Data en « batch », orienté sur les données froides, où on va constituer de grand stockages de données, pour pouvoir analyser les comportements et prendre des décisions avec plus de recul sur les comportements des machines, des personnes, des objets, etc.
Il n’y a pas de catégorie plus noble que l’autre
Ces deux approches Big Data impliquent des infrastructures et des approches différentes. Elles reposent fondamentalement sur des architectures et des technologies différentes. Néanmoins, on va considérer ces deux approches comme des approches Big Data, car elles s’appuient toutes deux sur de grands volumes de données, des volumes qui, souvent, arrivent en flux, dans des temps très courts, issus de capteurs ou de l’Internet ; Ce sont des données qui arrivent en volume, et elles arrivent en nombre sans cesse plus important. Par ailleurs, ces données adoptent tout un tas de formats différents, des formats structurés, facilement compréhensibles comme des chiffres par exemple, et des formats non structurés ; et dès lors, cela devient beaucoup plus complexe parce qu’il va falloir transformer ces données, il va falloir les interpréter, pour pouvoir s’en servir.
Une des caractéristiques du Big Data, c’est qu’à un moment donné, ces données ne sont pas des données certaines. C’est-à-dire qu’on va avoir des informations qui sont tellement nombreuses et issues de tant de sources, que quand nous les combinons, nous arrivons à les rendre de plus en plus certaines. Ce sont des signaux faibles, qui petit à petit vont devenir des signaux forts et quand ce signal devient suffisamment fort, on va s’en servir soit pour alimenter des systèmes en temps réel, nous en parlions plus haut, soit des machines, soit alimenter des études, des identifications d’anomalies, des certifications de cas clients ou d’opportunités et actionner les leviers ou des processus dans l’entreprise.
Gérer des données structurées ou non structurées : un nouveau paradigmeCes données non structurées nous fournissent des informations incertaines, qui sont plutôt des hypothèses, et ces hypothèses vont être corroborées par d’autres informations, pour pouvoir, à un moment donné nous fournir des indices sur le fait qu’on peut ou non les utiliser.Prenons un exemple, pour être plus concret.Posons l’hypothèse d’une personne qui se connecte sur un site marchand, dont je peux capter l’adresse IP. Peut-être que derrière cette adresse IP il s’agit en effet de mon client, mais peut-être que ce n’est que son fils ou sa femme ou même le voisin qui passe par là et qui s’est connecté en utilisant le même ordinateur. Donc au départ, je peux communiquer avec cet utilisateur, mais seulement à l’aveugle : j’ai son adresse IP, et j’ai également une information qui me dit que je suis bien dans le foyer que je connais.Par contre, tant que je n’aurai pas validé cette donnée, et que je n’aurai pas capté plus de connaissances sur la personnalité de l’interlocuteur, je ne pourrai pas me prononcer avec certitude sur son identité et encore moins lui adresser de messages précis. Donc je vais commencer par conforter mon hypothèse, en prenant des informations périphériques et en les croisant.
Si cet utilisateur est en train de regarder des jeux vidéo pour enfants par exemple, il y a peu de chances que ce soit le père qui soit connecté. Ensuite, je vais conforter ce point une nouvelle fois par le fait qu’il n’a pas entré son identifiant client et qu’il est resté anonyme, alors que d’habitude il se connecte au bout de cinq minutes et qu’on le reconnaît très facilement.En résumé, je vais croiser des informations afin de m’assurer du fait que c’est bien mon client qui est connecté et grâce à cela, je vais pouvoir lui pousser une nouvelle offre parce que la dernière fois il a acheté la version 2 de mon logiciel et que je pense qu’il pourrait être intéressé par la version 3, par exemple.Le marketing de l’incertain et de la prévision.
Une des applications du Big Data consiste à devenir plus fort et plus pointu en prédictif, mais il y a d’autres types d’applications. Et quand on parle de données non structurées, l’un des types de données les plus captivants, c’est ce que l’on appelle le « sentiment Analysis » ou analyse de tonalité en français. C’est en fait l’analyse des opinions, car les quand on parle de réputation des marques de nos jours, on parle aussi de présence des marques sur Internet, elles ont envie de savoir ce qu’on pense d’elles. Et ce qu’on pense d’elles se retrouve quelque part sur des volumes de données monstrueux, au travers de forums, dans des endroits divers et variés et où on de leurs produits en bien ou en mal. Dette analyse de de sentiment permet à ces marques de corriger le tir, de détecter des problèmes.
Le big data pour prévenir les crises sanitaires
Par exemple, on a travaillé avec un client dans l’agroalimentaire il y a quelque temps, en participant à un projet qui permettait d’anticiper les crises sanitaires. Par exemple en utilisant les détections de signaux faibles au travers des gens qui sont sur Internet et qui vont échanger entre eux, qui vont évoquer le fait qu’ils ont été malades. De ce fait on peut identifier un souci potentiel et si on le détecte suffisamment tôt, on peut effectivement cerner mieux les impacts en termes d’image voire même intervenir sur la crise sanitaire elle-même.
Des « pure players » aux acteurs métier
Non seulement les Big Data peuvent elle être utiles pour les gens qui sont dans le métier, mais aussi pour les utilisateurs. Le secteur le plus impacté par la big Data est la santé. Dans ce contexte on met en place des remontées de données issues de capteurs, comme dans cette expérience très intéressante menée avec une mutuelle sur les diabétiques.
La personne diabétique va être équipée d’un appareil qui permet de mesurer le taux de sucre dans son sang et qui va renvoyer l’information en temps réel vers un centre d’exploitation des données, et par dès la détection du problème chez ce diabétique, on va lui envoyer un mail, ou l’appeler au téléphone, envoyer des SMS, et s’il réagit pas, on va passer a l’étape suivante, et essayer de le contacter directement pour pouvoir lui envoyer des instructions à suivre, et s’il ne répond pas, on va lui envoyer quelqu’un à la maison. Cela reviendra néanmoins moins cher que la dégradation de sa situation ; on va pouvoir lui éviter l’hôpital et surtout un traitement qui sera très onéreux.
Donc finalement, c’est gagnant-gagnant, la mutuelle va faire des économies d’une part, et d’autre part le patient va s’y retrouver aussi car il bénéficiera d’un suivi personnalisé à distance qui lui permettra d’éviter de se retrouver dans une situation délicate.
Un phénomène technologique également
Il n’y a pas que des projets à base d’hadoop dans cette discipline des Big Data. hadoop, effectivement, correspond à un certains types de cas d’usage du big Data. Il est notamment recommandé pour analyser des données à froid sur des gros volumes, et pour lesquelles la volumétrie des données va croître de façon très rapide et exponentielle ; pour cela on a besoin d’architectures « scalable » [NDLR : capable de monter en charge]. Et comme on voit aujourd’hui le volume des données doubler tous les 12 mois ou 18 mois, ce point est particulièrement important. Tout ceci fait qu’on a besoin de mettre en place des architectures qui puissent fournir le même type de capacité de traitement avec des volumes qui vont grandir très vite et sans avoir besoin de se poser la question de savoir si on doit se changer de machine ou quoi que ce soit. On va rajouter des nœuds, et si on a besoin de traiter deux fois plus de volume avec le même temps, on doublera le nombre de noeuds de façon mécaniques, sans qu’il y ait un impact en termes de prix proportionnel au doublement qu’on vient d’évoquer.
C’est là un point très important, car cela veut dire qu’il y a des points de vigilance très importants vis à vis de ces architectures Big Data : la capacité de traitement, l’évolutivité, la « scalabilité », la capacité d’ajuster les ressources par rapport aux besoins.
C’est ce qui a fait la réussite des grands sites américains qui avaient anticipé cette architecture comme Google, Amazon et Facebook. Ce sont avant tout des entreprises qui ont réussi a mettre en œuvre des architectures big data avant tout le monde. Et de ce fait, elles ont pu obtenir une meilleure performance que leurs concurrents et c’est ce qui fait que les clients vont apprécier d’utiliser leurs services ou leurs outils plutôt que d’autres.
Et les volumes que l’on traite aujourd’hui n’ont rien à voir avec les volumes qu’on traitait il y a 5 à 7 ans. Aujourd’hui, Facebook, c’est 1 200 000 000 utilisateurs qui vont stocker des photos et des vidéos tous les jours et qui vont demander à Facebook les mêmes temps de réponse, la même performance avec une architecture qui soit capable de supporter des volumes sans commune mesure avec ceux d’il y a quelques années.
On le voit, les choix technologiques qui vont être faits, doivent être compatibles avec cette philosophie des Big Data, et notamment avec les différents usages. Certains de ces usages correspondent à des hadoop, d’autres à du MangoDB, encore d’autres à des bases NOSQL, et d’autres enfin à des bases SQL. Et donc cette architecture doit être vue globalement, en fonction des besoins auxquels elle est censée répondre et on ne doit pas considérer hadoop en tant que mot magique, c’est l’architecture dans son ensemble qui compte.
L’avenir du big data dans les cinq ans qui viennent
Quand on regarde ce qui se passe aux États-Unis, où il y a toujours un petit temps d’avance par rapport à la France et à l’Europe, les grosses bases traditionnelles se font challenger par les architectures Big Data. Elles ne sont pas challengées par un fournisseur donné ou par une technique isolée ; il s’agit plus d’une bataille entre architectures. Et on voit dans ce contexte des grands donneurs d’ordre, comme HSBC par exemple, qui vont à un moment remplacer une architecture basée sur une base de données traditionnelle (SQL ou autre), par une architecture de Big Data, dans laquelle on va retrouver du hadoop, du NOSQL, etc.
Et ceci va fournir un ROI en accord avec les attentes du client. Dans ce cas, on s’éloigne du Big Data expérimental, mais de réduction des coûts : l’enjeu est d’obtenir la même performance qu’avant, le même résultat avec un coût divisé par 2, par 5 ou par 10.
Big data futur absolu d’informatique ?
Non, car comme on l’a vu tout à l’heure dans notre discussion autour des architectures, il y aura du SQL, il y aura des bases traditionnelles ; c’est la combinaison qui sera intéressante, le fait de combiner les formats de stockage de l’information, de façon harmonieuse, car j’aurai mis en place les outils transverses qui permettront de réconcilier toutes ces données.
Commentaire (1)
Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.