Alban Phelip
Alban est data engineer chez Xebia. Issu d'une formation en statistiques il s'est spécialisé dans l'ingéniérie des données. Ses outils préférés : Spark et R. Speaker et bloggeur il se passionne par tout ce qui touche de près ou de loin au Big Data et à la Data science.
Il y a 2 années

Découvrez SparkR, la nouvelle API de Spark

Le 11 juin dernier la version 1.4.0 de Apache Spark a été publiée. Parmi toutes les nouveautés annoncées la plus importante était la venue d’une nouvelle API venant s’ajouter aux trois déjà existantes (Scala, Java et Python) : R. R est un langage d’analyse statistique particulièrement apprécié chez les statisticiens. Nous vous présentions sur ce blog...

Il y a 2 années

Les outils de la Data Science : Spark MLlib, mise en pratique (2/2)

  Dans le précédent article, nous vous présentions les différents concepts liés à MLlib : les types de RDD à fournir, la structure des algorithmes et la démarche à adopter pour construire une chaîne de traitement de Machine Learning. Nous allons maintenant mettre en pratique ces concepts à travers plusieurs exemples basés sur les différents algorithmes...

Il y a 2 années

Tech-Event Initiation au Machine Learning avec Spark le 4 Juin

Savoir faire du Machine Learning, notamment dans un contexte Big Data, est une compétence de plus en plus recherchée de nos jours. Pourtant cette discipline est loin d’être la plus simple à acquérir. Xebia vous propose de vous initier progressivement au Machine Learning et au framework Spark. Nous utiliserons les outils les plus récents des...

Il y a 2 années

Les outils de la Data Science : Spark MLlib, théorie et concepts (1/2)

Publié par Yoann Benoit, Alban Phelip

Dans deux précédents articles nous vous présentions R et Python et comment ils sont utilisés en Data Science. La limite de ces langages est cependant rapidement atteinte lorsque l’on a affaire à de gros jeux de données qui ne tiennent plus en mémoire. Dans ce cas là, la solution à envisager est de distribuer les...

Il y a 2 années

Les outils de la Data Science : R

Nous lançons aujourd’hui une série d’articles sur les outils de la Data Science. Ils auront pour objectif de présenter et expliquer les langages, les framework ou les librairies utilisés aujourd’hui par les data scientists. Nous commençons par un article sur le logiciel R. R est un logiciel d’analyse statistique open-source extrêmement populaire chez les statisticiens....

Xebia.TV

SMACK : embrassez le Fast Data !

Xebia met à l'honneur la Data dans tous ses états durant le mois de mai 2017. Du Data Engineering à la Data Science en passant par le Real Time, tous les champs d’application autour de la donnée sont abordés à travers des problématiques concrètes. Le Mois de la Data sera articulé autour de 4 meetups tous les mardis de mai, avec pour chacun d’eux un thème dédié, présenté et organisé par des Xebians.

Mois de la Data - Introduction Episode 2 - Meetup 09/05/2017

Xebia met à l'honneur la Data dans tous ses états durant le mois de mai 2017. Du Data Engineering à la Data Science en passant par le Real Time, tous les champs d’application autour de la donnée sont abordés à travers des problématiques concrètes. Le Mois de la Data sera articulé autour de 4 meetups tous les mardis de mai, avec pour chacun d’eux un thème dédié, présenté et organisé par des Xebians.

Du notebook au code propre : l'histoire d'amour entre Data Science & Craftsmanship peut commencer !

Xebia met à l'honneur la Data dans tous ses états durant le mois de mai 2017. Du Data Engineering à la Data Science en passant par le Real Time, tous les champs d’application autour de la donnée sont abordés à travers des problématiques concrètes. Le Mois de la Data sera articulé autour de 4 meetups tous les mardis de mai, avec pour chacun d’eux un thème dédié, présenté et organisé par des Xebians.