Accueil > Big Data, Divers > Un tutoriel sur Hadoop et le Big Data

Un tutoriel sur Hadoop et le Big Data

écrit par René Lefebure

20 juin

Une présentation assez complète et pas trop technique qui permet de comprendre le Big Data et les spécificités d’Hadoop.

La vidéo (en anglais sans sous titres) de 43 minutes présente dans un premier temps les 3 V du Big Data avec :

–         La croissance des données,

–         La variété des données,

–         Les applications en temps réel.

L’exposé montre les limites actuelles des systèmes distribués avec :

–         Dépendance sur le réseau et la bande passante,

–         Complexité dans l’ajustement de la puissance machine,

–         Difficulté dans la gestion des pannes partielles,

–         Consommation excessive des ressources pour transporter les données,

–         Consommation excessive pour synchroniser les données,

qui ont conduit à la naissance d’Hadoop.

Dans une seconde partie, le conférencier présente les deux parties d’Hadoop :

–         La partie Stockage des données avec HDFS,

–         La partie Traitement avec Map Reduce.

Personnellement, j’ai apprécié la transposition avec un jeu de 52 cartes (13 cœurs, 13 piques, etc..) pour expliquer le fonctionnement de HDFS et de Map Reduce avec la répartition sur 4 machines et les différentes étapes d’un processus Map Reduce pour reconsolider les informations (il est probable que je me serve de cet exemple en cours).

On comprend que la complexité d’Hadoop réside dans la capacité à découper un traitement, de le distribuer et ensuite de reconsolider ces traitements.

En dernière partie, le conférencier explique la mécanique de découpage des « clusters » sur des blocs de 64MB, avec la tâche de réplication et le rôle du « balanceur » pour répartir sur les machines disponibles.

Ainsi avec 2 machines et 300 MB, on crée au départ 5 clusters de 64 MB, qui deviennent ensuite 15 clusters (pour assurer la réplication) qui se répartiront ensuite entre 7 et 8 sur chacune des machines.

Évidemment pour gérer la localisation des données, le Namenode a besoin de RAM alors que les DataNode nécessitent plus de ressources disques.

On comprend dès lors l’importance de l’administration pour faire évoluer une architecture Hadoop.

Dans tous les cas, un excellent « tutoriel » pour rentrer dans le sujet

http://intellipaat.com/hadoop-developer-training/

Bonne vidéo

Pas encore de commentaire

Faire un commentaire