Big data ou big confusion ?

Si beaucoup d'entreprises veulent faire du big data ou plus exactement de l'analytique en temps réel et de la prédiction, elles se trouvent confrontées à un marché en pleine phase de croissance. Variété des offres et difficulté à recruter des spécialistes sont les principaux freins au développement du big data.

La notion de big data a retenu l'attention du club de la presse informatique B2B avec une interrogation sur le fait qu'aujourd'hui il règne un certain big bazar sur ce marché. Sur la partie définition, les intervenants à la table ronde s'accordent sur la distinction entre les données structurées qui connaissent une croissance forte et surtout les données non structurées issues de plusieurs sources (réseaux sociaux, vidéos, images, audio, Machine to Machine).

Mouloud Dey, directeur Business Solution chez SaS, parle même de dark data qui sont des informations peu ou mal utilisées comme les logs par exemple et qui représenteraient selon IDC deux tiers des données des entreprises. Sébastien Verger, directeur technique chez EMC France rappelle qu'un des premiers aspects du big data réside dans le stockage, quelles données sauvegarder, la capacité allouée, etc.

Une diffusion du big data dans toutes les couches du SI

Pour autant, les intervenants constatent que derrière le concept de big data les réponses apportées s'apparentent à une jungle. Michel Brulay, responsable marketing EMEA chez Terradata donne l'exemple de Linkedin qui lors d'une présentation a expliqué que pour répondre à sa problématique de données volumineuses, la société avait 12 solutions disponibles. Il faut dire que les technologies évoluent avec des solutions comme Hadoop et se diffusent dans plusieurs branches du système d'information. L'infrastructure utilise de l'analytique, tout comme la sécurité pour faire du prédictif. Michel Brulay cite le cas de Barclays qui a utilisé Hadoop pour du stockage low cost. La banque propose à ses clients de consulter jusqu'à 12 ans d'historiques. Les 4 premières années sont sur des plateformes de stockage rapide, les 4 autres années sont sur une infrastructure designée pour une moindre sollicitation et enfin les 4 dernières années ont été placées sur un noeud Hadoop low cost.
Pour confirmer cette diffusion dans toutes les couches du SI, Intel a annoncé sa propre distribution Hadoop pour les environnements x86. L'objectif est de donner des informations pertinentes en un minimum de temps aux divisions métiers. Fabien Esdourubail, directeur du marché Entreprise pour l'Europe de l'Ouest chez Intel explique qu'aujourd'hui « nous sommes capables de traiter 1 To de données en 7 minutes au lieu de 4h ».

Une pénurie de compétences sur les données

Autre frein au développement de solutions big data, la pénurie d'analystes des données. « C'est une vraie souffrance pour les entreprises », prévient Valérie Perhirin, responsable France de l'offre Big Data & Analytics chez Capgemini. Trouver un « data scientist » relève du parcours du combattant, « il s'agit de trouver le mouton à 5 pattes » constate Jean Paul Alibert, VP Innovation & Big Data chez HP France. Il ajoute qu'il doit « à la fois être statisticien, spécialisé dans les mathématiques, développeurs et avoir des compétences métiers ».

A défaut de trouver ses perles rares, Valérie Perhirin a trouvé une solution « mettre en place une équipe combinant ces différentes compétences ». La fin de la prééminence des analystes des données interviendra peut être avec l'automatisation des processus dans le big data. Le cloud pourra être une première approche, mais tous les intervenants constatent que les offres sont à construire et qu'il faut casser les silos organisationnels des entreprises pour avoir une approche transverse du big data.