Bertrand Dechoux
Consultant et Formateur Hadoop @BertrandDechoux
Il y a 2 années

Article Programmez « Développer un job Map/Reduce pour Hadoop »

Hadoop Map/Reduce est un framework de calcul distribué inspiré du paradigme fonctionnel. Dans cet article, nous allons voir dans un premier temps la théorie, ce qu’est ce paradigme, puis la pratique, en écrivant en job complet pour Hadoop. Un précédent article expliquait comment installer un cluster Hadoop.

Il y a 3 années

Explorer vos données avec le Notebook d’IPython

Un algorithme de machine learning peut à terme sortir des résultats paraissant magiques. Mais la première étape sera toujours d’explorer les données. Sinon, on risque de tomber dans l’approche inverse : "garbage in, garbage out". Pour faciliter cette exploration, on souhaite posséder un outil qui permette de projeter, agréger, visualiser les données mais également de...

Il y a 3 années

[Livre] « Storm Real-time Processing Cookbook »

Storm permet de faire du traitement à la volée (stream processing) de façon distribuée et tolérante à la panne. D’une certaine façon, c’est la contrepartie à Hadoop MapReduce qui ne gère que du batch. Ce projet fut rendu open source fin 2011 et un écosystème commence à se former autour de celui-ci. Packt a publié...

Il y a 3 années

5ième Open Source Developers Conference France

Publié par Bertrand Dechoux

La cinquième édition de l’Open Source Developers Conference France (OSDC.fr) aura lieu cette semaine, les 4 et 5 octobre, au Beffroi de Montrouge, à Paris. Cette conférence est organisée par les Mongueurs de Perl, l’AFPy (Association France Python), Ruby France, l’European Smalltalk User Group et l’Association Française des Utilisateurs de PHP. Il est ainsi tout...

Il y a 3 années

[Livre] « Entreprise Data Workflows with Cascading »

Publié par Bertrand Dechoux

A la mi-juillet, le livre « Entreprise Data Workflows with Cascading » fut publié chez O’Reilly. Son auteur Paco Nathan est le « data science director » de « Concurrent, Inc », l‘entreprise ayant rendu Cascading open source et encore principal moteur de son évolution.  Par ce blog, nous vous avions déjà présenté Cascading ,  ainsi que Cascalog   et relayé...

Il y a 3 années

Voldemort, depuis Hadoop (3/3)

Publié par Bertrand Dechoux

Précédemment, nous avons vu ensemble l’intérêt de Voldemort pour stocker vos recommandations quotidiennes (article) et comment installer Voldemort en lecture seule (article). Mais celui-ci, sans données, ne présente pas beaucoup d’intérêt. Il est désormais temps de terminer le tutoriel pas à pas, avec la génération des fichiers (données et index) depuis Hadoop, puis leur import.

Il y a 3 années

Voldemort, en lecture seule (2/3)

Publié par Bertrand Dechoux

Précédemment, nous avons vu l’intérêt de Voldemort pour stocker vos recommandations quotidiennes. Il est maintenant temps de mettre les mains dans le cambouis en commençant par installer Voldemort en lecture seule.

Il y a 3 années

Voldemort, le gardien de vos recommandations quotidiennes (1/3)

Publié par Bertrand Dechoux

Hadoop permet d’optimiser le temps d’exécution de traitements distribués quand ils sont limités par la bande passante vers les données. Mais, pour cette même raison, son système de fichiers (HDFS) n’est pas conçu pour les accès aléatoires. Si vous recalculez les recommandations pour vos utilisateurs chaque nuit, comment exposer alors à chaque utilisateur les données...

Il y a 4 années

Hadoop Summit 2013 à Amsterdam, le rattrapage

Publié par Bertrand Dechoux

Le premier Hadoop Summit en Europe est fini. Mais si vous n’avez pu y participer, il est toujours temps de se rattraper en consultant les slides et les vidéos des présentations renseignées sur le planning. Bien sûr, cela ne vous permettra pas de participer aux échanges ‘de couloirs’. Mais il ne faut pas non plus...

Il y a 4 années

Hadoop Summit commence Mercredi

Publié par Bertrand Dechoux

Mercredi prochain, le 20 mars, commencera la première conférence Hadoop Summit en Europe, à Amsterdam! Cette conférence de deux jours est une occasion unique pour partager ses expériences autour de l’écosystème Hadoop. Certainement tout le monde connait le buzz word BigData mais en dehors du ‘simple’ volume cela implique aussi énormément de diversité dans l’utilisation...

Il y a 4 années

Hadoop User Group, ce soir : après Drill, voici Impala

Publié par Bertrand Dechoux

Hadoop User Group, ce soir : après Drill, voici Impala Drill et Impala sont les dernières stars de l’écosystème Hadoop puisqu’ils promettent tous les deux une analyse interactive ("temps réel", si on aime le buzz word) des données contenues dans HDFS. Ted Dunning a présenté Drill lors du dernier meetup, le 4 décembre. C’est maintenant au tour d’Impala, qui vous...

Il y a 4 années

Analyse prédictive en assurance santé par Julien Cabot au Hadoop User Group

Publié par Bertrand Dechoux

Julien Cabot (@julien_cabot) présente Analyse prédictive en assurance santé au Hadoop User Group France qui s’est déroulé chez Xebia le 7 novembre 2012.

Il y a 4 années

IBM Streams par Jérome Chailloux au Hadoop User Group

Publié par Bertrand Dechoux

Jérome Chailloux présente IBM Streams  au Hadoop User Group France qui s’est déroulé chez Xebia le 7 novembre 2012.

Il y a 4 années

Agile Analytics Applications par Russell Jurney au Hadoop User Group

Publié par Bertrand Dechoux

Russell Jurney (@rjurney), évangéliste Hadoop chez HortonWorks et auteur d’Agile Data, présente Agile Analytics Applications au Hadoop User Group France, qui s’est déroulé chez Xebia le 7 novembre 2012.

Il y a 4 années

4ième Open Source Developers Conference France

Publié par Bertrand Dechoux

La quatrième édition de l’Open Source Developers Conference France (OSDC.fr) aura lieu cette semaine, le 12 et 13 octobre, à l’Eurosites George V. Cette conférence est organisée par les Mongueurs de Perl, l’AFPy (Association France Python), Ruby France, l’European Smalltalk User Group et l’Association Française des Utilisateurs de PHP. Il est ainsi tout naturel de...

Il y a 4 années

Les dessous de Cascalog, Cascading

Publié par Bertrand Dechoux

On peut critiquer la verbosité de l’API MapReduce, mais cette problématique n’est pas tant liée à la syntaxe du langage hôte qu’au manque d’abstraction. Dans un précédent article, vous avez pu voir Cascalog au travers d’une approche hands-on et remarquer qu’il est possible d’exprimer succinctement des traitements de données complexes. Si vous avez creusé un peu plus,...

Il y a 4 années

Tester vos jobs MapReduce avec MRUnit

Les tests unitaires appartiennent aux bonnes pratiques du génie logiciel car ils permettent de détecter un certain nombre de regressions. Tester unitairement des jobs Hadoop MapReduce est bien sur possible mais, à cause de l’API, cela reste un exercice très verbeux et demandant un temps non négligeable pour obtenir des tests compréhensibles. MRUnit a été créé pour vous...

Il y a 5 années

Cascalog par Bertrand Dechoux au Hadoop User Group France

Publié par Bertrand Dechoux

Bertrand Dechoux présente Cascalog au premier Hadoop User Group France qui s’est déroulé chez Xebia le 15 mars 2012.

Xebia.TV

XebiCon'16 : Thiga - Qu'est ce que le Growth Hacking en 2016 ?

Thiga - Qu'est ce que le Growth Hacking en 2016 ? Par Nicolas Galland, Coach en Growth Marketing chez Thiga Parfois fantasmé comme une baguette magique permettant d'acquérir à moindre coût ses clients, le Growth Hacking est en réalité une alchimie nécessitant 3 ingrédients : - une parfaite connaissance des utilisateurs, - une parfaite maîtrise des mécanismes de croissance, - et des expérimentations constantes faites par une équipe autonome et créative.

XebiCon'16 : PMU et le Big Data - d'une approche mono projet à une démarche entreprise

PMU et le Big Data : d'une approche mono projet à une démarche entreprise. Par Arnaud Etevenard, Responsable division projets - Domaine Client chez PMU Depuis octobre 2015, le PMU et Xebia construisent un datalake. Porté par le département Marketing, le premier Use Case couvre sur la connaissance client et a permis de justifier un ROI en 6 mois. Venez comprendre quels ont été les facteurs clés de succès sur la mise en place du DataLake et pourquoi il est apparu déterminant d'intégrer dès le début des usages d'autres métiers (approche P&L, jeu responsable, etc.). Nous vous exposerons aussi les principaux freins qui ont été rencontrés. Nous vous expliquerons également par quels moyens nous avons impliqué les experts data historiques et comment nous tâchons d'amener les opérationnels à passer de consommateurs à source de nouveaux usages.

XebiCon'16 : Kodo Kojo, une usine logicielle en trois clics

Kodo Kojo, une usine logicielle en trois clics. Antoine Le Taxin et Jean-Pascal Thiery, Développeur Full Stack pour Kodo Kojo La réalisation de projets informatiques s'appuie de plus en plus sur l'agilité et le devOps pour garantir la qualité des livrables dont l'usine logicielle est la garante. Mal maîtrisée et bien souvent complexe, l'usine logicielle est source de problèmes. Nous vous présenterons comment Kodo Kojo peut vous simplifier la création, le monitoring et la gestion de votre forge.