Résultats

Il y a 9 mois

Exploration de données en Scala

Aujourd’hui, c’est la première journée où Henri va faire de la data. Henri est développeur back Scala à la base, et aimerait contribuer à la partie data de son projet. Or, la plupart des outils sont en Python. On peut certes trouver rapidement des How-To sur Internet traitant de la data en Python, mais Henri, lui,...

Publié par Xebia France

Il y a 10 mois

Xebia lance DataXDay, conférence technique dédiée à la Data.

Cette année, Xebia organise une conférence unique dédiée à la Data en France : DataXDay.  DataXDay est une conférence pour les passionnés et les professionnels gravitant dans l’écosystème de la Data, souhaitant trouver des réponses à leurs problématiques du quotidien. La conférence se déroulera le 17 mai prochain au Pan Piper. Pourquoi une conférence dédiée à la Data ? Vous...

Publié par Jonathan Norblin

Il y a 1 année

Spark : comprendre et corriger l’exception Task not serializable

Dans tous les langages, le debugging peut parfois s’avérer une tâche fastidieuse. C’est d’autant plus le cas lorsque l’on utilise un framework distribué avec beaucoup de concepts complexes sous-jacents, comme Spark. Cet article propose de revenir sur l’une des erreurs les plus souvent rencontrées lors du développement d’applications avec Spark, et qui n’est pas toujours...

Publié par Sylvain Lequeux

Il y a 1 année

Tester du code Spark – 2 – La pratique

Que de la théorie. Les tests du code Spark semblent abonnés à cette réalité : tout reste théorique. À croire qu’en réaliser est impossible. Il est grand temps de remédier à ce problème et démontrer que le sujet est abordable par tous. Quitter la théorie, c’est débuter par les bonnes pratiques. Des réflexes sur la spécification...

Publié par Sylvain Lequeux

Il y a 2 années

Tester du code Spark : 1- La théorie

Spark est plus puissant et plus simple à utiliser que MapReduce, mais comment tester du code Spark ? Voici notre vision ! Spark est un framework de calcul distribué créé à Berkeley en 2010. Il connait une adoption impressionnante. Plusieurs raisons à cela : des performances de très loin supérieures à MapReduce et un framework à...

Publié par Yoann Benoit

Il y a 2 années

PySpark sur votre IDE – Comment faire ?

Spark est maintenant un framework incontournable pour le traitement massif de données. Il est aussi de plus en plus utilisé dans les équipes de développement de projets Data, surtout via son API principale en Scala. Qu’en est-il de Python ? Si cette API est elle aussi massivement utilisée, force est de constater qu’on la retrouve...

Publié par Yoann Benoit

Il y a 3 années

From scikit-learn to Spark ML

Dans un récent billet de blog de Databricks et Olivier Girardot, From Pandas to Apache Spark’s DataFrame, les auteurs nous montraient comment transposer le traitement et l’analyse de données faites avec la librairie Python pandas en DataFrames PySpark. L’article prouvait que, bien que quelques différences techniques existent dues au fait que les objets traités ne...

Publié par Alban Phelip

Il y a 3 années

Découvrez SparkR, la nouvelle API de Spark

Le 11 juin dernier la version 1.4.0 de Apache Spark a été publiée. Parmi toutes les nouveautés annoncées la plus importante était la venue d’une nouvelle API venant s’ajouter aux trois déjà existantes (Scala, Java et Python) : R. R est un langage d’analyse statistique particulièrement apprécié chez les statisticiens. Nous vous présentions sur ce blog...

Publié par Yoann Benoit, Alban Phelip

Il y a 3 années

Les outils de la Data Science : Spark MLlib, mise en pratique (2/2)

  Dans le précédent article, nous vous présentions les différents concepts liés à MLlib : les types de RDD à fournir, la structure des algorithmes et la démarche à adopter pour construire une chaîne de traitement de Machine Learning. Nous allons maintenant mettre en pratique ces concepts à travers plusieurs exemples basés sur les différents algorithmes...

Publié par Yoann Benoit, Alban Phelip

Il y a 4 années

Les outils de la Data Science : Spark MLlib, théorie et concepts (1/2)

Dans deux précédents articles nous vous présentions R et Python et comment ils sont utilisés en Data Science. La limite de ces langages est cependant rapidement atteinte lorsque l’on a affaire à de gros jeux de données qui ne tiennent plus en mémoire. Dans ce cas là, la solution à envisager est de distribuer les...

Nous recrutons

Être un Xebian, c'est faire partie d'un groupe de passionnés ; C'est l'opportunité de travailler et de partager avec des pairs parmi les plus talentueux.