Hadoop : définition, architecture, distributions
Socle technique du big data, Hadoop est un framework open source qui permet de stocker et de traiter de grands volumes de données. Il repose sur une infrastructure hautement scalable et un système de fichiers distribués (HDFS).
Hadoop, c'est quoi ?
Projet open source publié en 2008 par Yahoo! et sponsorisé par la fondation Apache Software Foundation, Hadoop est un framework logiciel écrit en Java. Prérequis pour une approche big data, il offre un espace de stockage massif pour tout type de donnée. Son système de fichiers distribués permet à Hadoop d'exécuter des applications sur des systèmes en cluster comprenant un grand nombre de nœuds.
Pourquoi utiliser Hadoop ?
Le modèle de calcul distribué d’Hadoop permet de stocker et de traiter rapidement de grands volumes de données. A la différence des bases de données relationnelles traditionnelles, il n'est pas nécessaire de traiter les données avant de les stocker. Il est ainsi possible de stocker autant de données que l'on souhaite - y compris des données non structurées comme du texte, des images ou des vidéos - et décider de leur usage plus tard. Autre avantage : l'évolutivité. Pour gérer plus de données, il suffit d'ajouter des nœuds au cluster. Hadoop offre aussi une bonne tolérance aux pannes grâce à la réplication des données. Si un nœud tombe en panne, les taches en cours sont automatiquement redirigées vers d’autres nœuds. Enfin, le framework étant open source, il est possible de se lancer dans le big data à moindre coût.
Quelles sont les trois caractéristiques d'Hadoop ?
Hadoop comprend trois composants principaux. HDFS, pour Hadoop Distributed File system, est un système de fichiers distribués qui permet de stocker des données sur un grand nombre de machines sans organisation préalable. YARN, pour Yet Another Resource Negotiator, gère, lui, les ressources du système et planifie les tâches. Enfin, MapReduce est un framework de traitement de données en cluster.
Quel est le lien entre big data et Hadoop ?
Hadoop peut être considéré comme le socle technique du big data. Alors que les entreprises devaient avant structurer leurs données et centraliser leur stockage dans des serveurs dédiés, le framework a ouvert la voie à l'exploitation d'un grand volume de données, au format non défini, par la mise en place de clusters.
Qu'est-ce qu'Hadoop MapReduce ?
MapReduce est un framework qui permet de manipuler de grandes volumes de données en les distribuant dans un cluster de machines pour assurer leur traitement.