Publié par
Il y a 4 années · 6 minutes · Data

Hadoop Summit 2013 à Amsterdam, le rattrapage

Le premier Hadoop Summit en Europe est fini. Mais si vous n’avez pu y participer, il est toujours temps de se rattraper en consultant les slides et les vidéos des présentations renseignées sur le planning. Bien sûr, cela ne vous permettra pas de participer aux échanges ‘de couloirs’. Mais il ne faut pas non plus oublier que la communauté française est active au travers du Hadoop User Group France avec des réunions mensuelles. Pour ceux près de Paris, c’est l’occasion de partager de vive voix ses expériences. Et pour tout le monde, un accès à d’autres présentations, en français cette fois-ci.

Pendant ce Hadoop Summit européen, nous avons pu assister à de nombreuses présentations. Voici quelques notes concernant celles qui nous ont le plus marqué.

What the point of Hadoop?

Matt Aslett, directeur de la recherche à 451 Research, a ouvert cette conférence avec une question fondamentale : pourquoi Hadoop ? Sa réponse est à la fois simple et très nuancée puisque contextuelle. Il s’agit d’une plate-forme d’une très grande flexibilité, ce qui est à la fois une aubaine et un frein.

C’est avec humour qu’il a fait le rapprochement avec l’histoire des aveugles et de l’éléphant. Bien sûr en fonction de ce que vous voyez (ce qui dépend de votre métier et de votre expérience) Hadoop peut être quelque chose de très particulier pour vous et de complètement différent pour quelqu’un d’autre. Il existe cependant bien un chemin standard pour franchir le fossé de l’adoption :

  1. stockage : récupérer les données des composants existants dans votre SI et centraliser les logs/événements qui devaient être jetés auparavant.
  2. nettoyage/filtrage/extraction : fournir à votre SI les données avec le format et la granularité que chaque composant est capable de gérer.
  3. analytique : utiliser, finalement, la puissance de calcul d’Hadoop afin de faire les analyses directement sur cette plateforme.

Chaque étape permet de profiter de plus en plus des avantages d’Hadoop mais le chemin est à prendre dans le bon sens au risque de mettre la charrue avant les bœufs. Il est important de maitriser la complexité du SI existant et sa migration.

Matt Aslett redéfinit plus précisément la problématique (total data) en quatre axes.

  1. totalité : Hadoop permet de stocker la totalité de vos données. Faites le et profitez des économies d’échelle.
  2. exploration : les données brutes étant stockées, il est possible de les analyser afin de comprendre les informations qui peuvent se révéler utiles. Le fait de ne pas avoir à sélectionner/préparer les données avant de les stocker est clairement un avantage afin d’éviter de biaiser l’exploration.
  3. fréquence : les processus existants peuvent être portés sur la plateforme afin d’augmenter leur fréquence d’exécution, par exemple du mois au jour. On ne parle pas de temps réel mais cela peut tout de même révolutionner les dynamiques d’un métier.
  4. dépendance : enfin de plus en plus de solutions permettent de requêter un cluster Hadoop avec du (pseudo-)SQL. Cela permet de réutiliser les compétences acquises mais fournit aussi un lien technique, maitrisé et connu, pour intégrer Hadoop dans le SI.

Pour ceux qui souhaitent comprendre le buzz derrière cette technologie, c’est définitivement une keynote à rattraper (vidéo et slides).

Enterprise Integration of Disruptive Technologies

Yahoo!, Facebook et Twitter sont souvent cités comme modèles pour leur utilisation des nouvelles technologies, telle que Hadoop. Cependant, même s’il y a certainement beaucoup à apprendre de ces entreprises, « les géants du web », peu d’entreprises peuvent se considérer comme similaires à celles-ci, notamment en France. Une entreprise peut-elle tirer parti d’Hadoop sachant que son SI est déjà complexe, qu’il est critique, qu’il ne doit pas être perturbé et que de plus cette entreprise est par culture très conservatrice et prudente? Alasdair Anderson nous a montré que c’était possible en nous expliquant la mise en place d’Hadoop chez HSBC : slides.

Si vous êtes persuadé de l’intérêt d’Hadoop mais que vous n’arrivez pas à envisager son intégration dans votre entreprise, cette présentation vous permettra certainement de prendre du recul par rapport aux problématiques que vous prévoyez. Des entreprises ont franchi le pas et de plus en plus exposent leur migration. Comme second exemple, il est opportun de rappeler le retour d’expérience fait par Mathias Herberts concernant le Credit Mutuel Arkea lors d’un meetup du HUG. Le retour d’expérience de Criteo sur leur utilisation est certainement à voir aussi, la vidéo sera uploadée prochainement sur le site du HUG.

Hadoop Now, Next and Beyond

Eric Baldeschwieler, CTO et fondateur d’Hortonworks, a ouvert la seconde journée en retraçant l’évolution d’Hadoop : depuis sa naissance, son utilisation chez Yahoo! puis les améliorations à venir. Ce fut l’occasion de faire un tour de l’écosystème et notamment des nouvelles briques à venir. L’initiative Stinger a pour but d’accélérer Hive par un facteur de 100. Cela passera notamment par Tez. Ce nouveau framework d’exécution utilisant YARN remplacera MapReduce afin de fournir des requêtes à latences faibles, prérequis nécessaire pour une exploration interactive des données stockées sur Hadoop. La sécurité est également revue : Knox a pour objectif de proposer une solution plus flexible et plus customisable que l’existant se reposant sur l’obligation d’utiliser Kerberos. Et c’est également au tour du data management de se voir cibler avec le projet Falcon, disponible sur github sous l’ancien nom Ivory et désormais un projet Apache.

Pour reprendre le sujet : la video et les slides.

Hadoop and the Enterprise Data Warehouse

Patrick Angeles, director of field engineering à Cloudera, est revenu sur l’intégration d’Hadoop en entreprise ; spécifiquement sa relation avec les data warehouse et data marts mais plus généralement avec les différentes couches nécessaires pour analyser les données métiers. La volumétrie, la variété et la vitesse des données impacteront l’architecture utilisée pour le décisionnel mais on retrouve cependant de grands schémas, des patterns. Si vous souhaitez mieux comprendre comment Hadoop peut compléter, voire remplacer, certaines briques de votre information décisionnelle,  c’est une présentation à ne pas manquer : slides.

En conclusion

Cette confèrence Hadoop Summit 2013 à Amsterdam était un événement unique puisque le premier en Europe. Etant un spin-off d’une conférence déjà bien établie, les speakers étaient triés sur le volet. Elle a rassemblé des intervenants d’entreprises dont l’implication n’est plus à démontrer : Hortonworks, MapR, Cloudera mais aussi Yahoo!, Facebook, LinkedIn, Twitter… On a apprécié le fait d’avoir un public mixte, composé à la fois de décideurs, de concepteurs et d’exploitants. C’est un plus pour favoriser l’adoption d’Hadoop mais surtout pour crééer une synergie nécessaire au succes de sa mise en place. Bien que previsible en regardant la liste des speakers, on regrettera le fait que la vision d’Hortonworks était peu nuancée par ses compétiteurs. Enfin si l’on devait comparer juste le nombre de participants (500), cela reste une petite confèrence même par rapport à des conférences nationales (devoxx france : 1500). La communauté s’agrandit cependant de jours en jours et s’il fallait donner un conseil pour Hadoop Summit 2014 en Europe, cela serait seulement : ne la loupez pas.

Bertrand Dechoux
Consultant et Formateur Hadoop @BertrandDechoux

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *