Dès 1965, Gordon Moore (cofondateur de la société Intel) affirmait que le nombre de transistors par circuit de même taille allait doubler, à prix constants, tous les ans. Il rectifia ultérieurement ses propos portant à dix-huit mois le rythme de doublement. Il en déduisit que la puissance des ordinateurs allait croître de manière exponentielle, et ce pour des années.
Il avait raison. Sa loi, fondée sur un constat empirique, a été vérifiée jusqu’à aujourd’hui. Il a cependant déclaré en 1997 que cette croissance des performances des puces se heurterait aux environs de 2017 à une limite physique : celle de la taille des atomes. (Source Futura Sciences).
Les limites de la loi de Moore
Mais cette loi relative à la puissance des ordinateurs revêt certaines inégalités. En bref, au cours des cinq dernières années, le coût du stockage, de la CPU, et de la bande passante ont diminué de façon exponentielle, tandis que l’accès au réseau a augmenté de façon exponentielle. En 1980, un téraoctet de stockage sur disque coutait 14 millions de dollars.
Aujourd’hui, il est à 30 $ et chute encore. Les classes de données qu’il n’était auparavant économiquement pas viables de stocker ou d’exploiter, tels que les fichiers journaux générés par les machines, représentent aujourd’hui des perspectives de profit.
Cependant, si les vitesses des CPU et des réseaux augmentent de manière exponentielle, le goulot d’étranglement pour un accès total et rapide aux données siège bien au niveau de la lecture sur les disques. En effet, les vitesses de lecture ne s’améliorent que lentement. Et ce, du fait des faibles progrès sur les temps de positionnement des têtes de lecture. (Source : Mémoire de DEA d’Intelligence Artificielle et Optimisation Combinatoire – Analyse et réalisation d’un système de disques répartis à forte disponibilité – Septembre 2002 – Marc Hufschmitt – Université Paris 8)
Le Big Data fera-t-il mentir Moore ?
Ainsi, pour pallier ce facteur limitant, les constructeurs ont chercher à développer des technologies qui réduisaient au maximum les accès disque. Au moins deux voies ont donc été explorées.
- L’augmentation du volume de calcul réalisé en mémoire : Les stratégies In Memory (QlikView, SAP Hana, etc.)
- La parallélisation des débits sur disque dur au travers d’architecture distribuée (Teradata, Netezza, HPCC et Hadoop Fondation Apache)
Ces deux voies sont longtemps restées disjointes, avec dans le monde Hadoop une vision dite « batch » avec MapReduce et « temps réel » avec Storm. Les temps d’accès aux données pour les logiciels utilisant une stratégie In Memory sont bien souvent identiques voire supérieurs aux temps d’accès sur les SGBDR classiques. Cependant, une convergence est en phase de s’opérer avec l’arrivée de Spark.
Spark est l’une des technologies les plus intéressantes du Big Data
Spark est devenu un projet open source de la fondation Apache dans la continuité des travaux du laboratoire Amplab de l’Université Berkley. L’objectif est simple mais son application plus complexe surtout s’il s’agit de préserver les propriétés de tolérance aux pannes. Il s’agit donc de garder en mémoire les données entre deux itérations des étapes MapReduce. Ceci est fait selon un principe abstrait de mémoire distribuée : Resilient Distributed Datasets (Zaharia et al. 2012).
Cet environnement est accessible en Java, Scala 5, Python et bientôt R (librairie SparkR). Il est en outre accompagné d’outils de requêtage (Shark), d’analyse de graphes (GraphX) et d’une bibliothèque en développement (MLbase) de méthodes d’apprentissage.
Votre adresse de messagerie est uniquement utilisée par Business & Decision, responsable de traitement, aux fins de traitement de votre demande et d’envoi de toute communication de Business & Decision en relation avec votre demande uniquement. En savoir plus sur la gestion de vos données et vos droits.