Data gravity : l'irrésistible course au volume

Dans un article de blog, Dave McCrory a théorisé son concept de data gravity. (Crédit D. McCrory)

Le terme data gravity a été utilisé pour la première fois en 2010 par le développeur Dave McCrory dans un article de blog. Ce concept fait référence à la façon dont les données « attirent » d'autres données et services. Tout comme la gravité d'une planète attire d'autres objets, cette analogie permet d'imaginer que de grandes accumulations de données sont plus susceptibles d'accumuler encore plus de données. De nouvelles applications à forte intensité de données comme l'analytique, l'intelligence artificielle et l'Internet des Objets entraînent une croissance énorme des données d'entreprise. Cette croissance s'accompagne d'un nouvel ensemble de considérations architecturales qui tournent autour du concept de gravité des données. C'est une analogie utile en ce sens qu'elle explique pourquoi le cloud et l'edge computing ont pris le dessus sur la façon dont les données sont stockées et gérées.

Jusqu'à présent, cette théorie s'est généralement maintenue pour les entreprises qui gèrent des silos de données en expansion. Dans le contexte actuel, à mesure que les ensembles de données deviennent de plus en plus volumineux dans les entreprises, ils deviennent de plus en plus difficiles à déplacer. Donc, les données restent en place, c'est la gravité, et d'autres choses sont attirées par les données, comme les applications et la puissance de traitement, qui vont là où les données résident. Et comme la gravité des données augmente rapidement, les entreprises sont amenées à utiliser des plates-formes et des applications adaptées.

Stockage des données hybrides

Généralement, les plates-formes et les applications d'analyse de données vivent dans leurs propres piles de matériel et de logiciels, et les données qu'elles utilisent sont stockées dans un système de stockage à connexion directe (DAS). Les plates-formes d'analyse - telles que Hadoop, Splunk et TensorFlow - aiment par contre conserver leurs données. Ainsi, la migration des données devient un précurseur aux traitements analytiques. Au fur et à mesure que les entreprises mûrissent dans leurs pratiques d'analyse de données, cette approche devient difficile à manier. Lorsque vous disposez de quantités massives de données dans différents systèmes de stockage d'entreprise, il peut être difficile, coûteux et risqué de déplacer ces données vers d'autres clusters analytiques. Ces obstacles sont encore plus importants si vous souhaitez exécuter des analyses dans le cloud sur des données stockées dans l'entreprise, ou vice-versa.

Concrètement, le déplacement des données, plus loin et plus fréquemment, a un impact sur la performance de la charge de travail, il est donc logique que les données soient amassées et que les applications et services associés soient situés à proximité. L'hyperconvergence illustre bien le concept de gravité des données. Dans une infrastructure hyperconvergente, les ressources de calcul, de mise en réseau et de virtualisation sont étroitement intégrées au stockage des données dans un serveur standard. De plus, plus il y a de données dans une source ou un référentiel, plus leur valeur perçue sera grande. Les logiciels et les services sont apportés aux données afin d'en exploiter la valeur. De même, plus la quantité de données est importante, plus d'autres données peuvent y être reliées, ce qui augmente leur valeur pour l'analyse. Signalons enfin que selon Dave McRory, la gravité des données se déplace irrémédiablement vers le cloud. Au fur et à mesure que de plus en plus de données d'entreprise internes et externes sont déplacées vers le cloud ou y sont générées, les outils d'analyse de données sont également de plus en plus basés sur le cloud.