Bertrand Dechoux
Consultant et Formateur Hadoop @BertrandDechoux
Il y a 2 années

Article Programmez « Développer un job Map/Reduce pour Hadoop »

Hadoop Map/Reduce est un framework de calcul distribué inspiré du paradigme fonctionnel. Dans cet article, nous allons voir dans un premier temps la théorie, ce qu’est ce paradigme, puis la pratique, en écrivant en job complet pour Hadoop. Un précédent article expliquait comment installer un cluster Hadoop.

Il y a 2 années

Explorer vos données avec le Notebook d’IPython

Un algorithme de machine learning peut à terme sortir des résultats paraissant magiques. Mais la première étape sera toujours d’explorer les données. Sinon, on risque de tomber dans l’approche inverse : "garbage in, garbage out". Pour faciliter cette exploration, on souhaite posséder un outil qui permette de projeter, agréger, visualiser les données mais également de...

Il y a 3 années

[Livre] « Storm Real-time Processing Cookbook »

Storm permet de faire du traitement à la volée (stream processing) de façon distribuée et tolérante à la panne. D’une certaine façon, c’est la contrepartie à Hadoop MapReduce qui ne gère que du batch. Ce projet fut rendu open source fin 2011 et un écosystème commence à se former autour de celui-ci. Packt a publié...

Il y a 3 années

5ième Open Source Developers Conference France

Publié par Bertrand Dechoux

La cinquième édition de l’Open Source Developers Conference France (OSDC.fr) aura lieu cette semaine, les 4 et 5 octobre, au Beffroi de Montrouge, à Paris. Cette conférence est organisée par les Mongueurs de Perl, l’AFPy (Association France Python), Ruby France, l’European Smalltalk User Group et l’Association Française des Utilisateurs de PHP. Il est ainsi tout...

Il y a 3 années

[Livre] « Entreprise Data Workflows with Cascading »

Publié par Bertrand Dechoux

A la mi-juillet, le livre « Entreprise Data Workflows with Cascading » fut publié chez O’Reilly. Son auteur Paco Nathan est le « data science director » de « Concurrent, Inc », l‘entreprise ayant rendu Cascading open source et encore principal moteur de son évolution.  Par ce blog, nous vous avions déjà présenté Cascading ,  ainsi que Cascalog   et relayé...

Il y a 3 années

Voldemort, depuis Hadoop (3/3)

Publié par Bertrand Dechoux

Précédemment, nous avons vu ensemble l’intérêt de Voldemort pour stocker vos recommandations quotidiennes (article) et comment installer Voldemort en lecture seule (article). Mais celui-ci, sans données, ne présente pas beaucoup d’intérêt. Il est désormais temps de terminer le tutoriel pas à pas, avec la génération des fichiers (données et index) depuis Hadoop, puis leur import.

Il y a 3 années

Voldemort, en lecture seule (2/3)

Publié par Bertrand Dechoux

Précédemment, nous avons vu l’intérêt de Voldemort pour stocker vos recommandations quotidiennes. Il est maintenant temps de mettre les mains dans le cambouis en commençant par installer Voldemort en lecture seule.

Il y a 3 années

Voldemort, le gardien de vos recommandations quotidiennes (1/3)

Publié par Bertrand Dechoux

Hadoop permet d’optimiser le temps d’exécution de traitements distribués quand ils sont limités par la bande passante vers les données. Mais, pour cette même raison, son système de fichiers (HDFS) n’est pas conçu pour les accès aléatoires. Si vous recalculez les recommandations pour vos utilisateurs chaque nuit, comment exposer alors à chaque utilisateur les données...

Il y a 3 années

Hadoop Summit 2013 à Amsterdam, le rattrapage

Publié par Bertrand Dechoux

Le premier Hadoop Summit en Europe est fini. Mais si vous n’avez pu y participer, il est toujours temps de se rattraper en consultant les slides et les vidéos des présentations renseignées sur le planning. Bien sûr, cela ne vous permettra pas de participer aux échanges ‘de couloirs’. Mais il ne faut pas non plus...

Il y a 3 années

Hadoop Summit commence Mercredi

Publié par Bertrand Dechoux

Mercredi prochain, le 20 mars, commencera la première conférence Hadoop Summit en Europe, à Amsterdam! Cette conférence de deux jours est une occasion unique pour partager ses expériences autour de l’écosystème Hadoop. Certainement tout le monde connait le buzz word BigData mais en dehors du ‘simple’ volume cela implique aussi énormément de diversité dans l’utilisation...

Il y a 3 années

Hadoop User Group, ce soir : après Drill, voici Impala

Publié par Bertrand Dechoux

Hadoop User Group, ce soir : après Drill, voici Impala Drill et Impala sont les dernières stars de l’écosystème Hadoop puisqu’ils promettent tous les deux une analyse interactive ("temps réel", si on aime le buzz word) des données contenues dans HDFS. Ted Dunning a présenté Drill lors du dernier meetup, le 4 décembre. C’est maintenant au tour d’Impala, qui vous...

Il y a 3 années

Analyse prédictive en assurance santé par Julien Cabot au Hadoop User Group

Publié par Bertrand Dechoux

Julien Cabot (@julien_cabot) présente Analyse prédictive en assurance santé au Hadoop User Group France qui s’est déroulé chez Xebia le 7 novembre 2012.

Il y a 4 années

IBM Streams par Jérome Chailloux au Hadoop User Group

Publié par Bertrand Dechoux

Jérome Chailloux présente IBM Streams  au Hadoop User Group France qui s’est déroulé chez Xebia le 7 novembre 2012.

Il y a 4 années

Agile Analytics Applications par Russell Jurney au Hadoop User Group

Publié par Bertrand Dechoux

Russell Jurney (@rjurney), évangéliste Hadoop chez HortonWorks et auteur d’Agile Data, présente Agile Analytics Applications au Hadoop User Group France, qui s’est déroulé chez Xebia le 7 novembre 2012.

Il y a 4 années

4ième Open Source Developers Conference France

Publié par Bertrand Dechoux

La quatrième édition de l’Open Source Developers Conference France (OSDC.fr) aura lieu cette semaine, le 12 et 13 octobre, à l’Eurosites George V. Cette conférence est organisée par les Mongueurs de Perl, l’AFPy (Association France Python), Ruby France, l’European Smalltalk User Group et l’Association Française des Utilisateurs de PHP. Il est ainsi tout naturel de...

Il y a 4 années

Les dessous de Cascalog, Cascading

Publié par Bertrand Dechoux

On peut critiquer la verbosité de l’API MapReduce, mais cette problématique n’est pas tant liée à la syntaxe du langage hôte qu’au manque d’abstraction. Dans un précédent article, vous avez pu voir Cascalog au travers d’une approche hands-on et remarquer qu’il est possible d’exprimer succinctement des traitements de données complexes. Si vous avez creusé un peu plus,...

Il y a 4 années

Tester vos jobs MapReduce avec MRUnit

Les tests unitaires appartiennent aux bonnes pratiques du génie logiciel car ils permettent de détecter un certain nombre de regressions. Tester unitairement des jobs Hadoop MapReduce est bien sur possible mais, à cause de l’API, cela reste un exercice très verbeux et demandant un temps non négligeable pour obtenir des tests compréhensibles. MRUnit a été créé pour vous...

Il y a 4 années

Cascalog par Bertrand Dechoux au Hadoop User Group France

Publié par Bertrand Dechoux

Bertrand Dechoux présente Cascalog au premier Hadoop User Group France qui s’est déroulé chez Xebia le 15 mars 2012.

Xebia.TV

Le mois du JS - React native

JavaScript à toutes les sauces et pour tous les goûts, découvrez le JS autrement : IoT, conteneurs, orienté fonctionnel…

Le mois du JS - Docker dans ton Front

JavaScript à toutes les sauces et pour tous les goûts, découvrez le JS autrement : IoT, conteneurs, orienté fonctionnel…