Data et IA : faut-il construire sa plateforme d’entreprise dans le cloud ?

19 février 2019 Modifié le 18 juillet 2019

Cloud, Data et IA : les trois buzzwords absolus ! Les attentes des organisations sur ces sujets sont extrêmement fortes du fait de la transformation et de la création de valeur qu’ils promettent. Le volume des données explose, l’IA est portée par de nouvelles technologies disruptives pour les DSI, et le cloud propose de gérer toute cette complexité avec agilité ! A l’heure de concevoir sa plateforme Data (qui devra accueillir toutes les initiatives d’IA : celles déjà imaginées et surtout celles qui ne sont même pas encore imaginables), le choix de la construire dans le cloud s’apparente pour beaucoup à un choix cornélien. Entre promesses de performance à moindre coût, risque cyber-sécuritaire et casse-tête réglementaire, on fait le point dans cet article sur les plateformes Data et IA dans le cloud.

Data et IA : faut-il construire sa plateforme d'entreprise dans le cloud ?

Le cloud est depuis quelques années au cœur des préoccupations des DSI. Largement répandus sur certains pans applicatifs tels ceux que du CRM (grâce notamment à la force d’attraction de Salesforce) ou de fonctions périphériques au cœur de métier, les projets Data se faisaient jusqu’alors encore majoritairement sur des architectures appelées « on-premise » (les données sont stockées dans les serveurs de l’entreprise et donc localisées dans les datacenters de l’organisation).

Le premier frein au cloud est technique. Il est dû au volume de données géré dans le système d’information data. En effet, le cloud présente un volume de données important (plusieurs téraoctets To, voire pétaoctets Po) et il est traditionnellement opéré en mode batch et non au fil de l’eau (les données sont traitées par lot, donc avec un volume significatif à chaque traitement). Cette limite est de moins en moins valable grâce à l’augmentation de la capacité des réseaux et à la capacité de traitement au fil de l’eau des nouvelles bases et outils de gestion des données.

En réalité, le principal frein au cloud est aujourd’hui culturel. En effet, le saut à réaliser pour accepter que ses données (c’est-à-dire son trésor de guerre, potentiellement toute la connaissance de l’entreprise !) soient hébergées par un prestataire semble énorme pour bon nombre d’organisations. Au-delà de la légitime (et sage) inquiétude quant au sujet brûlant de la sécurité des données (sur lequel on reviendra), la discussion s’apparente de plus en plus à un débat au café du commerce qu’à une étude argumentée.

Les sirènes du cloud sont séduisantes pour les projets Data et IA

Il faut avouer que les avantage du cloud sont nombreux et très séduisants, en particulier pour les projets Data :

  • Coût : facturation à l’usage et réduction du TCO (Total Cost of Ownership), notamment par la diminution des coûts d’administration de l’architecture
  • Infrastructure : robustesse, élasticité, scalabilité
  • Méthodologique :  démarrage ultra-rapide des projets et agilité des solutions. Capacité de passage à l’échelle
  • Applicatif : choix des solutions parmi un large catalogue propriétaire à l’opérateur cloud ou ouvert (système de marketplace)

Par ailleurs, il va être de plus en plus courant d’avoir recours aux frameworks d’ Intelligence Artificielle disponibles dans le cloud. En effet, ce sont bel et bien les algorithmes de Google, de Facebook, d’IBM ou encore de Microsoft, pré-entraînés avec des millions d’interactions utilisateurs et d’images, qui sont les plus puissants et les plus rapides à mettre en œuvre.

Le cloud semble donc être l’eldorado des projets Data et Intelligence Artificielle. A la fois catalyseur d’innovation et support du passage à l’échelle, il a permis à nombre de startups de voir le jour et de devenir des licornes, à l’instar de NetflixBlablacar ou N26 (l’un des trublions de la banque 100% digitale).

De nombreux avantages pour les projets IA

Le cloud apporte aussi de nombreux avantages pour les projets d’IA, en répondant à des contraintes spécifiques à ce domaine :

  • Gros volume de données à gérer > capacité à disposer d’infrastructures importantes et performantes par la séparation des unités de stockage et de calcul (compute)
  • Mobilisation d’importantes ressources de calcul sur un temps restreint (pour la phase d’apprentissage par exemple) > élasticité et tarification à l’usage (on ne paie les unités de calcul que pour le temps nécessaire)
  • Gestion de données non structurées (texte, images, vidéo, son) > solutions applicatives dédiées intégrées dans les services cloud
  • Utilisation d’algorithmes spécialisés > appel de service à des algorithmes pré-entraînés de l’opérateur cloud ou d’autres fournisseurs (interopérabilité et services ouverts)
  • Méthodologie basée sur un développement itératif et le passage à l’échelle > scalabilité et devops

Plateformes Data et IA dans le cloud : la sécurité et la protection des données ne sont pas négociables

Mais ne cédons pas à l’euphorie technologique et au chant des sirènes des opérateurs cloud sans y réfléchir à deux fois. Au moment de basculer le stockage des données en dehors de l’entreprise, la sécurité et la protection des données sont à considérer avec le plus grand sérieux.

Dans un monde virtualisé, la localisation géographique des données a son importance

Tout d’abord, si les données stockées sont un tant soit peu sensibles, il faut s’assurer que le datacenter qui les héberge est bien localisé en Europe, voire en France. Cela semble évident pour les données à caractère personnel depuis l’entrée en application du RGPD, mais cela doit aussi s’imposer pour tous les autres types de données si on veut garantir une bonne protection.

RGPD vs. Cloud Act, le combat diplomatique des règlements

En matière réglementaire, on assiste actuellement à une passe d’arme géostratégique inédite. Alors que l’Europe nage dans un bain de bonheur protecteur avec le RGPD, voilà que les USA décident de passer en force l’adoption d’un texte polémique nommé Cloud Act (pour Clarifying Lawful Overseas Use of Data). Tel un pied de nez à l’Europe, le texte américain est promulgué le 23 mars 2018, soit deux mois quasiment jour pour jour avant l’entrée en application du RGPD, et remet au passage en cause le sacro-saint principe de souveraineté des données.

Concrètement, ce texte permet aux forces de l’ordre américaines d’accéder aux données stockées sur les serveurs des fournisseurs de services américain, quel que soit le pays dans lequel ils sont localisés. En d’autres termes, la police américaine pourrait donc (sous mandat ou assignation tout de même, et donc dans le cadre d’une procédure juridique rigoureuse) accéder aux données stockées dans les cloud de Microsoft, Amazon, Google, Oracle ou encore IBM sans se soucier du respect des réglementations locales et sans en avertir les personnes concernées. Cela crée une situation diplomatique sans précédent pour laquelle les discussions internationales semblent dans l’impasse.

Ce sujet est aussi à prendre en compte au moment de choisir le fournisseur de cloud qui hébergera vos données. Si votre organisation a une forte sensibilité stratégique (comme c’est le cas d’acteurs publics ou encore de secteurs très réglementés comme ceux de la banque ou de l’assurance), vous pourriez choisir de vous orienter vers un fournisseur de cloud français (tels qu’OVH ou Orange). Mais espérons que les échanges internationaux reprennent et qu’un accord soit trouvé entre les États-Unis et l’Europe. Quoi qu’il en soit, une évaluation du risque et un conseil juridique peut être utile au moment de contractualiser avec un opérateur de cloud étranger.

Réversibilité et Sécurité du Cloud : la confiance n’exclut pas la prudence

Si vous envisagez de construire votre architecture Data et Intelligence Artificielle dans le cloud, le premier réflexe est de savoir comment en sortir ! Cela peut sembler étonnant mais le sujet de la réversibilité doit être envisagé dès le démarrage. En plus de prévoir ce qui devra être fait en dernier recours en cas de problème ou d’insatisfaction avec le service cloud, l’étude de la réversibilité permettra de se poser toutes les bonnes questions et, in fine, de mieux maîtriser l’environnement et les solutions cloud. Cette étude de réversibilité est d’autant plus importante pour les projets Data et IA qu’elle touche à des éléments qui sont au cœur du fonctionnement de l’organisation et qui doivent donc être absolument gardés sous contrôle.

Autre point essentiel à considérer : il ne faut pas badiner avec la sécurité des données (jamais !). Ce sujet doit être étudié en tant que tel au moment de déployer sa plateforme data (que ce soit dans le cloud, ou pas, d’ailleurs). Les données les plus sensibles (ce qui laisse entendre qu’il faut au préalable avoir cartographié et classifié le patrimoine des données…) doivent être, a minima, chiffrées. Les organisations les plus prudentes pourront mettre en place des architectures hybrides, soit pour répartir les données sur différents clouds, soit pour répartir les données entre le cloud et le stockage local dans les datacenters de l’entreprise :

Architecture hybride et protection des données personnelles

Mais les craintes sécuritaires liées au stockage des données dans le cloud ne sont, à mon avis, que culturelles et devraient disparaître dans les années qui viennent. Tout comme il fut un temps où des personnes étaient convaincues que leur argent est plus en sécurité sous leur matelas que nulle part ailleurs. En réalité, l’argent sera toujours plus en sécurité dans le coffre d’une banque quand bien même celle-ci stocke beaucoup d’argent (et attise donc certainement encore plus la convoitise). C’est pareil pour la sécurité des données. Les acteurs du cloud déploient des moyens énormes pour offrir le meilleur niveau de sécurité. Moyens que les entreprises traditionnelles ne pourront généralement pas mettre en œuvre seules.

Banque : dernier bastion des données dans le cloud ?

Avant de conclure, je vous propose un zoom sur un secteur que l’on connaît bien chez Business & Decision, celui de la Banque. Ce secteur est particulier car il manipule beaucoup de données, c’est même la base du métier. De plus, les banques surveillent attentivement les évolutions technologiques (c’est d’ailleurs sur ce terrain que les fintech attaquent les banques traditionnelles) et disposent, pour ce faire, d’armadas d’informaticiens dans leurs rangs.

Le cloud (et en particulier le SI Data et les projets d’IA) pose donc un réel dilemme pour le secteur qui multiplie les études sans toutefois se positionner franchement en sa faveur pour l’instant. Plusieurs tentatives ont bien lieu, telles que celles de la Société Générale ou encore du Crédit Agricole mais le secteur reste globalement timide sur ces nouvelles architectures pour des projets d’ampleur.

Un secteur très règlementé

Il faut dire que les banques sont très réglementées et que plusieurs textes marquants ont été publiés sur le sujet. Je vous propose d’en retenir deux :

Dans ce dernier texte, l’ABE dresse une liste d’éléments à prendre en compte pour le déploiement de solutions bancaires dans le cloud, notamment les suivants :

  • Auditabilité des systèmes
  • Tenue à jour d’un registre détaillant les données stockées dans le cloud
  • Information des superviseurs sur les données stockées dans le cloud
  • Localisation des données dans le pays où elles ont été collectées
  • Sécurité des données
  • Récupération et transfert des données possibles à tout moment et en cas de défaillance du fournisseur cloud

Ce texte entré en vigueur le 1er juillet 2018 pose les bases des précautions à prendre pour les projets Data et IA dans le cloud en venant ajouter de nouvelles conditions par rapport à celles en vigueur dans tous les autres secteurs (en particulier avec le RGPD).

Plateforme Data et IA : Cloud ou pas Cloud ?

En conclusion, il apparaît que les avantages du cloud sont indéniables pour les plateformes Data et que les qualités intrinsèques du cloud sont précieuses pour les projets d’Intelligence Artificielle. De plus, l’idée que le cloud puisse être moins sécurisé qu’une infrastructure traditionnelle est simplement culturelle.

Toutefois, des précautions sont à prendre au moment de basculer votre plateforme Data et IA sur un service cloud :

  1. Localiser les données en Europe (voire en France) selon le niveau de sensibilité
  2. Étudier les impacts réglementaires, juridiques et contractuels avec le plus grand sérieux
  3. Prévoir la réversibilité dès le démarrage du projet
  4. Apporter la plus grande vigilance à la sécurité des données stockées et en mouvement

Avec cela, vous avez la bonne recette pour construire une architecture Data durable, robuste et capable d’accueillir toutes les initiatives d’IA de votre organisation.

Mick Levy
Mick Levy Directeur de l'Innovation Business
Business & Decision

Datamaniaque! 15 ans d'expérience dans la valorisation du capital des données de l'entreprise au sein de Business & Decision. Acteur engagé, Mick conseille de nombreuses organisations sur leur stratégie Data et sur l’adoption des nouveaux usages digitaux. IA, RGPD et Big Data sont ses principaux…

En savoir plus

Laissez un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.