Description de l'auteur

Consultant et Formateur Hadoop @BertrandDechoux

Résultats

Publié par Bertrand Dechoux

Il y a 4 années

Article Programmez « Développer un job Map/Reduce pour Hadoop »

Hadoop Map/Reduce est un framework de calcul distribué inspiré du paradigme fonctionnel. Dans cet article, nous allons voir dans un premier temps la théorie, ce qu’est ce paradigme, puis la pratique, en écrivant en job complet pour Hadoop. Un précédent article expliquait comment installer un cluster Hadoop.

Publié par Bertrand Dechoux

Il y a 5 années

Explorer vos données avec le Notebook d’IPython

Un algorithme de machine learning peut à terme sortir des résultats paraissant magiques. Mais la première étape sera toujours d’explorer les données. Sinon, on risque de tomber dans l’approche inverse : "garbage in, garbage out". Pour faciliter cette exploration, on souhaite posséder un outil qui permette de projeter, agréger, visualiser les données mais également de...

Publié par Bertrand Dechoux

Il y a 5 années

[Livre] « Storm Real-time Processing Cookbook »

Storm permet de faire du traitement à la volée (stream processing) de façon distribuée et tolérante à la panne. D’une certaine façon, c’est la contrepartie à Hadoop MapReduce qui ne gère que du batch. Ce projet fut rendu open source fin 2011 et un écosystème commence à se former autour de celui-ci. Packt a publié...

Publié par Bertrand Dechoux

Il y a 5 années

5ième Open Source Developers Conference France

La cinquième édition de l’Open Source Developers Conference France (OSDC.fr) aura lieu cette semaine, les 4 et 5 octobre, au Beffroi de Montrouge, à Paris. Cette conférence est organisée par les Mongueurs de Perl, l’AFPy (Association France Python), Ruby France, l’European Smalltalk User Group et l’Association Française des Utilisateurs de PHP. Il est ainsi tout...

Publié par Bertrand Dechoux

Il y a 5 années

[Livre] « Entreprise Data Workflows with Cascading »

A la mi-juillet, le livre « Entreprise Data Workflows with Cascading » fut publié chez O’Reilly. Son auteur Paco Nathan est le « data science director » de « Concurrent, Inc », l‘entreprise ayant rendu Cascading open source et encore principal moteur de son évolution.  Par ce blog, nous vous avions déjà présenté Cascading ,  ainsi que Cascalog   et relayé...

Publié par Bertrand Dechoux

Il y a 5 années

Voldemort, depuis Hadoop (3/3)

Précédemment, nous avons vu ensemble l’intérêt de Voldemort pour stocker vos recommandations quotidiennes (article) et comment installer Voldemort en lecture seule (article). Mais celui-ci, sans données, ne présente pas beaucoup d’intérêt. Il est désormais temps de terminer le tutoriel pas à pas, avec la génération des fichiers (données et index) depuis Hadoop, puis leur import.

Publié par Bertrand Dechoux

Il y a 5 années

Voldemort, en lecture seule (2/3)

Précédemment, nous avons vu l’intérêt de Voldemort pour stocker vos recommandations quotidiennes. Il est maintenant temps de mettre les mains dans le cambouis en commençant par installer Voldemort en lecture seule.

Publié par Bertrand Dechoux

Il y a 5 années

Voldemort, le gardien de vos recommandations quotidiennes (1/3)

Hadoop permet d’optimiser le temps d’exécution de traitements distribués quand ils sont limités par la bande passante vers les données. Mais, pour cette même raison, son système de fichiers (HDFS) n’est pas conçu pour les accès aléatoires. Si vous recalculez les recommandations pour vos utilisateurs chaque nuit, comment exposer alors à chaque utilisateur les données...

Publié par Bertrand Dechoux

Il y a 5 années

Hadoop Summit 2013 à Amsterdam, le rattrapage

Le premier Hadoop Summit en Europe est fini. Mais si vous n’avez pu y participer, il est toujours temps de se rattraper en consultant les slides et les vidéos des présentations renseignées sur le planning. Bien sûr, cela ne vous permettra pas de participer aux échanges ‘de couloirs’. Mais il ne faut pas non plus...

Publié par Bertrand Dechoux

Il y a 6 années

Hadoop Summit commence Mercredi

Mercredi prochain, le 20 mars, commencera la première conférence Hadoop Summit en Europe, à Amsterdam! Cette conférence de deux jours est une occasion unique pour partager ses expériences autour de l’écosystème Hadoop. Certainement tout le monde connait le buzz word BigData mais en dehors du ‘simple’ volume cela implique aussi énormément de diversité dans l’utilisation...

Publié par Bertrand Dechoux

Il y a 6 années

Hadoop User Group, ce soir : après Drill, voici Impala

Hadoop User Group, ce soir : après Drill, voici Impala Drill et Impala sont les dernières stars de l’écosystème Hadoop puisqu’ils promettent tous les deux une analyse interactive ("temps réel", si on aime le buzz word) des données contenues dans HDFS. Ted Dunning a présenté Drill lors du dernier meetup, le 4 décembre. C’est maintenant au tour d’Impala, qui vous...

Publié par Bertrand Dechoux

Il y a 6 années

Analyse prédictive en assurance santé par Julien Cabot au Hadoop User Group

Julien Cabot (@julien_cabot) présente Analyse prédictive en assurance santé au Hadoop User Group France qui s’est déroulé chez Xebia le 7 novembre 2012.

Publié par Bertrand Dechoux

Il y a 6 années

IBM Streams par Jérome Chailloux au Hadoop User Group

Jérome Chailloux présente IBM Streams  au Hadoop User Group France qui s’est déroulé chez Xebia le 7 novembre 2012.

Publié par Bertrand Dechoux

Il y a 6 années

Agile Analytics Applications par Russell Jurney au Hadoop User Group

Russell Jurney (@rjurney), évangéliste Hadoop chez HortonWorks et auteur d’Agile Data, présente Agile Analytics Applications au Hadoop User Group France, qui s’est déroulé chez Xebia le 7 novembre 2012.

Publié par Bertrand Dechoux

Il y a 6 années

4ième Open Source Developers Conference France

La quatrième édition de l’Open Source Developers Conference France (OSDC.fr) aura lieu cette semaine, le 12 et 13 octobre, à l’Eurosites George V. Cette conférence est organisée par les Mongueurs de Perl, l’AFPy (Association France Python), Ruby France, l’European Smalltalk User Group et l’Association Française des Utilisateurs de PHP. Il est ainsi tout naturel de...

Publié par Bertrand Dechoux

Il y a 6 années

Les dessous de Cascalog, Cascading

On peut critiquer la verbosité de l’API MapReduce, mais cette problématique n’est pas tant liée à la syntaxe du langage hôte qu’au manque d’abstraction. Dans un précédent article, vous avez pu voir Cascalog au travers d’une approche hands-on et remarquer qu’il est possible d’exprimer succinctement des traitements de données complexes. Si vous avez creusé un peu plus,...

Il y a 6 années

Tester vos jobs MapReduce avec MRUnit

Les tests unitaires appartiennent aux bonnes pratiques du génie logiciel car ils permettent de détecter un certain nombre de regressions. Tester unitairement des jobs Hadoop MapReduce est bien sur possible mais, à cause de l’API, cela reste un exercice très verbeux et demandant un temps non négligeable pour obtenir des tests compréhensibles. MRUnit a été créé pour vous...

Publié par Bertrand Dechoux

Il y a 6 années

Cascalog par Bertrand Dechoux au Hadoop User Group France

Bertrand Dechoux présente Cascalog au premier Hadoop User Group France qui s’est déroulé chez Xebia le 15 mars 2012.

Nous recrutons

Être un Xebian, c'est faire partie d'un groupe de passionnés ; C'est l'opportunité de travailler et de partager avec des pairs parmi les plus talentueux.