3V en big data : définition et approche
Le big data consister à stocker, traiter et valoriser un nombre de toujours plus important de données que les méthodes traditionnelles n'arrivent plus à gérer. Selon le cabinet d'études Gartner, cette approche se définit par la règle des trois V.
Quels sont les 3V du big data ?
Les trois V du big data sont :
- Volume. La masse de données générées par les entreprises et les personnes augmente chaque jour de façon exponentielle. L'unité pour la mesurer est progressivement passée du pétaoctet (1015 octets) à l'exaoctet (1018 octets) puis au zettaoctet (1021 octets).
- Vélocité. Plus nombreuses, les données sont aussi créées selon des fréquences de plus en plus réduites. Pour ne pas perdre de leur valeur, elles doivent être collectées et partagées au plus vite. Pour répondre à ce défi, la puissance de calcul et les outils d'analyse du big data permettent de tendre vers la notion de temps réel.
- Variété. Textes, photos, vidéos, données IoT, fichiers de logs, flux de réseaux sociaux… Les données collectées sont de nature très variée. Les outils d’indexation et de traitement du big data doivent prendre cette grande diversité de données structurées et non structurées.
Quels sont les 5V du big data ?
En plus des V de Volume, Variété et Vélocité, deux nouveaux "V" permettent de mieux cerner les contours du big data :
- Véracité. Cette propriété renvoie à la notion de la confiance placée en la donnée. C'est-à-dire à la qualité de l'information, à son intégrité, à la fiabilité de la source. L'objectif est d'écarter les données qui ne sont pas viables, par leur format ou leur origine.
- Valeur. Un projet big data n'a de sens que s'il permet de créer de la valeur en améliorant un produit ou en personnalisant un service. Les données brutes ont souvent peu d'intérêt. La création de valeur passe par leur enrichissement, en croisant, par exemple, des données structurées d'une entreprise et des données non structurées externes.
Quels sont les 6V et 7V du big data ?
En plus des V de Volume, Variété, Vélocité, Véracité et Valeur, deux derniers "V" finissent de caractériser le big data :
- Visualisation. Collecter, traiter et analyser les données ne suffit pas. Il faut pouvoir les restituer sous un format lisible et simple. La visualisation des données (ou data visualisation) vise à rendre l'information exploitable par le plus grand nombre.
- Variabilité. Ce dernier "V" désigne la nature changeante de la donnée dont le format ou la valeur peut varier avec le temps. Pour éviter toute dérive du modèle, le big data doit tenir compte de cette variabilité dans la capture de l'information et s'assurer de toujours disposer d'un flux de données fiables.