Accueil > Big Data > Définition et spécificités du BIG DATA

Définition et spécificités du BIG DATA

écrit par René Lefebure

8 jan

Dans BIG DATA il y a BIG

Une définition du « Big Data » se révèle une tâche plus complexe qu’il n’y parait. En appliquant une traduction assez littérale comme la « Grosse Donnée », on est plutôt tenté de positionner le « Big Data » comme

– la capacité de gérer et d’analyser des très grosses quantités de données (j’ai volontairement choisi de ne pas employer le mot Base de données) au moyen de nouvelles techniques ( car les techniques traditionnelles comme le SQL en sont devenus incapables … ou le seront face aux perspectives de collecte programmées ).

Cette approche du « Big Data » comme extension technologique, comme moyen de dépasser le « mur de la data » (avoir une vitesse de traitement plus rapide que la vitesse de chargement ….) est particulièrement vraie dans le domaine de l’Internet où la volonté de stocker et analyser l’ensemble des interactions des visiteurs se traduit par des volumes considérables de données à interpréter.

A ce titre, il n’est pas fortuit que les « pères » du Big Data soient Google, Yahoo, Facebook ou Amazon ( seul Apple qui complète le club des 5 a une origine un peu différente). Ces entreprises ont du faire face à du stockage volumineux d’informations (comme la Bibliothèque Nationale de France !). Mais elles ont du apprendre à les interpréter pour optimiser les recherches des internautes, afficher les bonnes publicités ou faire les recommandations produits les plus adéquates (bref répondre à d’autres contraintes que la BNF).

Dans BIG DATA …il y a Valeur

Évidemment, les statisticiens et data miners pourraient conclure, à l’identique de Mr Jourdain, qu’ils faisaient déjà du « Big Data ». Que le « Buzzword » actuel est un coup marketing pour re-labelliser un univers décisionnel à la recherche d’un second souffle de croissance.

Bref encore un coup de publicité bien orchestré par quelques éditeurs astucieux.

Ils ont à la fois raison, car l’analyse des données est aussi ancienne que son stockage, mais ils ont tort lorsqu’ils minimisent la rupture de paradigme du décisionnel entre l’avant et l’après BIG DATA.

On ne peut considérer le « Big Data » comme une évolution : il y a une vraie rupture (pas totalement appréciée dans les médias actuels). Le Big Data est un extraordinaire levier de création de Valeur.

Il suffit pour s’en convaincre de regarder la capitalisation boursière de ces 5 entreprises (Google, Apple, Amazon, Face Book, Yahoo) sur les 3 dernières années, pour comprendre que le « Big Data » n’est pas seulement la gestion des grosses volumétries de données, mais une capacité de « maîtriser » la chaine de transformation des données en information.

Ce potentiel de valorisation semble avoir été bien compris par les investisseurs anglo-saxons, et sous-estimée en Europe continentale (les actions récentes de Me Lauvergeon commencent à corriger ce retard avec l’Ambition n°7 sur la valorisation des données massives).

La force du phénomène « Big Data » est d’avoir su mettre en évidence aux yeux des financiers (et de certains responsables politiques comme Obama ou Cameron), la capacité de transformation en avantage concurrentiel lié au traitement de la donnée (ce que le Data Mining n’avait pas su montrer avec autant de succès).

Dans « Big Data » il y a du Schumpeter en marche

Le « Big Data » fait entrer dans une nouvelle ère le traitement de la donnée. Il permet la mise en place de processus permettant de transformer des volumes de données hétérogènes en applications « business » innovantes.

Les facteurs de différenciation du « Big Data » dépassent le simple « mur de la volumétrie » pour intégrer une forte logique applicative de création de Valeur à partir des données. Le « Big Data » représente donc une rupture technologique (dans le sens où il autorise de gérer des volumes non atteignables précédemment), et un souffle d’innovation dans les techniques de modélisation(on retrouve des origines plus multiples dans les techniques de modélisation avec les statistiques, la bio statistique (météo ou diffusion des épidémies), l’analyse textuelle, les mathématiques, etc.

Un second élément « schumpetérien » dans le Big Data est relatif à son accessibilité pour des nouveaux acteurs (des « start up »). En effet, une partie non négligeable des logiciels est issue du mode Open Source, la mise à disposition d’espace de traitement sur des architectures Cloud (comme Amazon) permettent de traiter des grosses volumétries à des coûts très faibles.

Cette baisse des « couts d’entrée » dans le traitement de la donnée permet l’émergence de « nouveaux acteurs ». Les investissements importants tant en architecture qu’en software, autrefois nécessaire pour traiter des volumétries importantes de données, disparaissent.

Les initiatives d’ouverture des données dans des modes d’Open Data (les villes de Londres et de San Francisco http://spotcrime.com/ca/san+francisco sont des modèles du genre) offrent des « jeux d’expérimentation » pour de nouveaux acteurs qui apportent des nouvelles applications aux entreprises ou aux particuliers (les critères de choix d’une habitation incluront prochainement la criminalité, les temps de trajet, la qualité de la gestion des ordures ménagères, la performance des établissements scolaires … ou hospitaliers).

Pour ceux qui ont quelques doutes sur la nouveauté de l’approche, l’utilisation du programme Ngram de Google (https://books.google.com/ngrams) montre que l’approche historique de l’utilisation des mots sur 2 siècles, est différente de la recherche d’un document. Suivre la diffusion d’une expression au fil du temps est une approche différente de l’utilisation des données textuelles.

Les 5 V du Big Data

Pour apprécier la différenciation du Big Data, il est assez commun de citer les 5 V suivants :

Valeur : capacité de mettre en œuvre de nouveaux modèles économiques basés sur l’interprétation des données (Critéo est un exemple français http://www.criteo.com/fr/forrester)

Volume : pour dépasser les Tera Octets de données et franchir les limites des Peta, Exa et Zetta …qui arrivent à grande vitesse

Variété : pour dépasser les données structurées (celles qui « rentrent » dans des colonnes) et intégrer les données « non structurées » comme les données textuelles, les données audio, vidéo, les images, les données de navigation web, les données de déplacement GPS, etc… http://123opendata.com/blog/selectionobjets-communicants/

Vélocité : pour faire « coller » le facteur « Temps », élément de plus en plus important pour créer de la valeur, les données du « Big data » s’approchent d’un traitement en temps réel (pour l’affichage des bannières par exemple). Les modèles sont devenus « mortels » et apprennent à être nuls s’ils ne sont pas utilisés au « bon moment »

Véracité : par sa capacité de gérer les « grosses volumétries », les problématiques de création d’échantillon ne sont plus nécessaires. Il devient envisageable de traiter l’intégralité des données en supprimant les risques d’erreur liés au choix des échantillons, les copies entre les bases, l’ajustement des modèles de ré-application, et l’identification des signaux faibles.

Une définition du « Big Data »

Comme il faut quand même apporter une définition au « Big Data » je propose celle du chercheur Subu Raj

« Le BIG DATA fait non seulement référence aux données, mais il décrit aussi les outils, les processus et les règles qui permettent à une entreprise de créer, manipuler, gérer des volumes de données très importants (> 10 Tera) et en extraire les informations pertinentes »

Elle a le mérite de donner la frontière des 10 Téra et d’intégrer les notions de données et d’informations.

… si je devais amender cette excellente définition, je rajouterais « dans une perspective de gestion en temps réel ».

 

 

Pas encore de commentaire

Faire un commentaire