Résultats

Publié par Xebia France

Il y a 1 mois

Data Lovers, les vidéos des conférences du DataXDay sont en ligne

La deuxième édition du DataXDay s’est tenue le 27 juin dernier, et autant le dire, c’était une édition haute en couleurs ! Les 250 Data Lovers présents ont pu assister à une vingtaine de conférences techniques. Data Science, Data Engineering et Data Architecture toutes les briques de la Data se sont empilées pour proposer un...

Il y a 3 mois

Data Lovers, découvrez le programme du DataXDay !

DataXDay, LA conférence technique Data organisée par Xebia et Publicis Sapient, est dans un mois ! Data Lovers, nous sommes impatients de vous y retrouver. Si vous n’avez pas encore votre place, il est encore temps de profiter du tarif Early Bird à 70 euros seulement. Venez, donc durant la journée, assembler les différents blocs...

Il y a 2 ans

Exploration de données en Scala

Aujourd’hui, c’est la première journée où Henri va faire de la data. Henri est développeur back Scala à la base, et aimerait contribuer à la partie data de son projet. Or, la plupart des outils sont en Python. On peut certes trouver rapidement des How-To sur Internet traitant de la data en Python, mais Henri, lui,...

Publié par Xebia France

Il y a 2 ans

Xebia lance DataXDay, conférence technique dédiée à la Data.

Cette année, Xebia organise une conférence unique dédiée à la Data en France : DataXDay.  DataXDay est une conférence pour les passionnés et les professionnels gravitant dans l’écosystème de la Data, souhaitant trouver des réponses à leurs problématiques du quotidien. La conférence se déroulera le 17 mai prochain au Pan Piper. Pourquoi une conférence dédiée à la Data ? Vous...

Publié par Jonathan Norblin

Il y a 2 ans

Spark : comprendre et corriger l’exception Task not serializable

Dans tous les langages, le debugging peut parfois s’avérer une tâche fastidieuse. C’est d’autant plus le cas lorsque l’on utilise un framework distribué avec beaucoup de concepts complexes sous-jacents, comme Spark. Cet article propose de revenir sur l’une des erreurs les plus souvent rencontrées lors du développement d’applications avec Spark, et qui n’est pas toujours...

Publié par Sylvain Lequeux

Il y a 2 ans

Tester du code Spark – 2 – La pratique

Que de la théorie. Les tests du code Spark semblent abonnés à cette réalité : tout reste théorique. À croire qu’en réaliser est impossible. Il est grand temps de remédier à ce problème et démontrer que le sujet est abordable par tous. Quitter la théorie, c’est débuter par les bonnes pratiques. Des réflexes sur la spécification...

Publié par Sylvain Lequeux

Il y a 3 ans

Tester du code Spark : 1- La théorie

Spark est plus puissant et plus simple à utiliser que MapReduce, mais comment tester du code Spark ? Voici notre vision ! Spark est un framework de calcul distribué créé à Berkeley en 2010. Il connait une adoption impressionnante. Plusieurs raisons à cela : des performances de très loin supérieures à MapReduce et un framework à...

Publié par Yoann Benoit

Il y a 3 ans

PySpark sur votre IDE – Comment faire ?

Spark est maintenant un framework incontournable pour le traitement massif de données. Il est aussi de plus en plus utilisé dans les équipes de développement de projets Data, surtout via son API principale en Scala. Qu’en est-il de Python ? Si cette API est elle aussi massivement utilisée, force est de constater qu’on la retrouve...

Publié par Yoann Benoit

Il y a 4 ans

From scikit-learn to Spark ML

Dans un récent billet de blog de Databricks et Olivier Girardot, From Pandas to Apache Spark’s DataFrame, les auteurs nous montraient comment transposer le traitement et l’analyse de données faites avec la librairie Python pandas en DataFrames PySpark. L’article prouvait que, bien que quelques différences techniques existent dues au fait que les objets traités ne...

Publié par Alban Phelip

Il y a 4 ans

Découvrez SparkR, la nouvelle API de Spark

Le 11 juin dernier la version 1.4.0 de Apache Spark a été publiée. Parmi toutes les nouveautés annoncées la plus importante était la venue d’une nouvelle API venant s’ajouter aux trois déjà existantes (Scala, Java et Python) : R. R est un langage d’analyse statistique particulièrement apprécié chez les statisticiens. Nous vous présentions sur ce blog...

Publié par Yoann Benoit, Alban Phelip

Il y a 4 ans

Les outils de la Data Science : Spark MLlib, mise en pratique (2/2)

  Dans le précédent article, nous vous présentions les différents concepts liés à MLlib : les types de RDD à fournir, la structure des algorithmes et la démarche à adopter pour construire une chaîne de traitement de Machine Learning. Nous allons maintenant mettre en pratique ces concepts à travers plusieurs exemples basés sur les différents algorithmes...

Publié par Yoann Benoit, Alban Phelip

Il y a 4 ans

Les outils de la Data Science : Spark MLlib, théorie et concepts (1/2)

Dans deux précédents articles nous vous présentions R et Python et comment ils sont utilisés en Data Science. La limite de ces langages est cependant rapidement atteinte lorsque l’on a affaire à de gros jeux de données qui ne tiennent plus en mémoire. Dans ce cas là, la solution à envisager est de distribuer les...

Nous recrutons

Être un Xebian, c'est faire partie d'un groupe de passionnés ; C'est l'opportunité de travailler et de partager avec des pairs parmi les plus talentueux.