Le premier Hadoop Summit en Europe est fini. Mais si vous n’avez pu y participer, il est toujours temps de se rattraper en consultant les slides et les vidéos des présentations renseignées sur le planning. Bien sûr, cela ne vous permettra pas de participer aux échanges ‘de couloirs’. Mais il ne faut pas non plus oublier que la communauté française est active au travers du Hadoop User Group France avec des réunions mensuelles. Pour ceux près de Paris, c’est l’occasion de partager de vive voix ses expériences. Et pour tout le monde, un accès à d’autres présentations, en français cette fois-ci.
Pendant ce Hadoop Summit européen, nous avons pu assister à de nombreuses présentations. Voici quelques notes concernant celles qui nous ont le plus marqué.
Lire la suite de cet article »

Mercredi prochain, le 20 mars, commencera la première conférence Hadoop Summit en Europe, à Amsterdam!
Cette conférence de deux jours est une occasion unique pour partager ses expériences autour de l’écosystème Hadoop. Certainement tout le monde connait le buzz word BigData mais en dehors du ‘simple’ volume cela implique aussi énormément de diversité dans l’utilisation des données puisque cela touche tous les secteurs. Afin d’organiser les échanges, la conférence se compose en 4 tracks :
- « Applied Hadoop » abordera les cas d’utilisation. C’est bien sûr le domaine privilégié du machine learning mais en dehors de l’aspect académique, les performances sont aussi un sujet critique.
- « Operating Hadoop » exposera la face cachée d’Hadoop. Comme toute plateforme, sa solidité repose au final sur l’équipe d’exploitation. Cela sera l’occasion de partager du vécu mais également des bonnes recettes.
- « Hadoop Futures » mettra la lumière sur le passé (et oui), le présent et le futur d’Hadoop : comment rendre Hadoop encore plus accessible pour des demandes encore plus variées.
- « Integrating Hadoop » parlera enfin de comment faire rentrer un éléphant dans votre système d’information, quelles sont les synergies ou concurrences avec vos composants actuels.
Xebia France y sera bien sûr représentée pour vous faire partager les principaux sujets abordés lors de cette conférence, à travers une synthèse sur notre blog.
Hadoop User Group, ce soir : après Drill, voici Impala

Drill et Impala sont les dernières stars de l’écosystème Hadoop puisqu’ils promettent tous les deux une analyse interactive ("temps réel", si on aime le buzz word) des données contenues dans HDFS. Ted Dunning a présenté Drill lors du dernier meetup, le 4 décembre. C’est maintenant au tour d’Impala, qui vous sera dévoilé par Marcel Kornacker. Si vous souhaitez en savoir plus, rendez vous ce soir. Bien sur, comme toujours, les places sont limitées mais il en reste encore quelques unes. N’attendez donc pas pour réserver votre soirée.
Lire la suite de cet article »
IBM Streams par Jérome Chailloux au Hadoop User Group [ 55:58 ] Download
Russell Jurney (@rjurney), évangéliste Hadoop chez HortonWorks et auteur d’Agile Data, présente Agile Analytics Applications au Hadoop User Group France, qui s’est déroulé chez Xebia le 7 novembre 2012.
Lire la suite de cet article »
Agile Analytics Applications par Russell Jurney au Hadoop User Group [ 44:12 ] Download

La quatrième édition de l’Open Source Developers Conference France (OSDC.fr) aura lieu cette semaine, le 12 et 13 octobre, à l’Eurosites George V.
Cette conférence est organisée par les Mongueurs de Perl, l’AFPy (Association France Python), Ruby France, l’European Smalltalk User Group et l’Association Française des Utilisateurs de PHP. Il est ainsi tout naturel de retrouver dans le programme de nombreuses présentations concernant ces langages. Cependant, l’objectif premier de cette conférence est avant tout de créer un lieu de rencontres et d’échanges entre les différentes communautés afin d’aborder des sujets transverses mais également de construire des ponts, trop souvent abattus par des bandes de trolls. De nombreux autres langages sont donc également présents allant de erlang à javascript, en passant par des langages de la jvm tels que scala et clojure.
Xebia participe à cet évènement en animant le slot Cascalog – progammation logique pour Hadoop, qui sera présenté par moi-même. Cela sera l’occasion d’aborder la pertinence d’une approche fonctionnelle pour réaliser des traitements distribués mais aussi de montrer que l’approche logique peut apporter une abstraction bien nécessaire. Les slides seront mises en ligne à l’issue de la conférence.
On peut critiquer la verbosité de l’API MapReduce, mais cette problématique n’est pas tant liée à la syntaxe du langage hôte qu’au manque d’abstraction. Dans un précédent article, vous avez pu voir Cascalog au travers d’une approche hands-on et remarquer qu’il est possible d’exprimer succinctement des traitements de données complexes. Si vous avez creusé un peu plus, vous avez dû vous retrouver face à Cascading, la brique servant d’intermédiaire entre Cascalog et l’API MapReduce. Dans cet article, je vous propose de voir le positionnement de Cascading dans l’écosystème Hadoop et ce qu’elle apporte.
Lire la suite de cet article »

Les tests unitaires appartiennent aux bonnes pratiques du génie logiciel car ils permettent de détecter un certain nombre de regressions. Tester unitairement des jobs Hadoop MapReduce est bien sur possible mais, à cause de l’API, cela reste un exercice très verbeux et demandant un temps non négligeable pour obtenir des tests compréhensibles. MRUnit a été créé pour vous simplifier la vie. Actuellement en version 0.9, il est récemment devenu un top level project d’Apache et a pour avantage d’ être compatible avec les versions 0.20 , 0.23.x , 1.0.x d’Hadoop. Dans cet article, nous allons vous montrer son utilisation dans le cadre du HelloWord d’Hadoop : le WordCount.
Lire la suite de cet article »
Bertrand Dechoux présente Cascalog au premier Hadoop User Group France qui s’est déroulé chez Xebia le 15 mars 2012.
Lire la suite de cet article »
Cascalog par Bertrand Dechoux au Hadoop User Group France [ 21:17 ] Download