Publié par
Il y a 2 semaines · 6 minutes · Data, Events

Retour d’un Xebian sur le DataXDay

Le 17 mai dernier a eu lieu la première édition du DataXDay organisé par Xebia. Une conférence technique pour les Data Lovers qui a réuni plus de 200 personnes. Toutes les vidéos de la conférence sont disponibles ici.

J’ai intégré Xebia comme développeur depuis maintenant plus d’un an, malgré mon profil plutôt back/full-stack, je m’intéresse depuis quelques années aux technologies et problématiques liées à la DATA, il était donc naturel que j’assiste à l’événement Data by Xebia. Dans cet article, et en tant que Data Lover, je souhaite vous partager mon retour sur les conférences auxquelles j’ai pu participer.

A crash course on Google Cloud AutoML and machine learning APIs – GOOGLE (EN)

Après une courte introduction et présentation du programme par les organisateurs, la journée commence fort avec Kevin Nelson, developer advocate chez Google. Il nous présente le service Google Cloud AutoML bientôt disponible aux utilisateurs. Kevin Nelson passe brièvement sur les avancées du Machine Learning durant ces 10 dernières années afin de présenter les APIs Google les utilisant, notamment ce nouveau service Cloud AutoML. Celui-ci permet d’entrainer un modèle pour faire de la reconnaissance d’image spécifique tout en tirant parti de ce qu’offre déjà Google avec la vision API.

En guise de démo, nous avons pu découvrir une classification de type de nuages faite par les employés de Google.

Finalement, cette présentation fut peu technique, avec un pan plus commercial afin de nous présenter les différentes features proposées par Google aujourd’hui et prochainement. Ponctué d’un grand nombre de démos, la présentation était très agréable à suivre. Vous pouvez ainsi la découvrir ici :

Kafka beyond the brokers: Stream processing and Monitoring – CONFLUENT (FR)

Deuxième conférence de la journée : c’est au tour de Confluent de mener la danse avec Florent Ramière qui vient nous parler de Kafka. Ce fut l’un des meilleurs talks de la journée, avec une orientation assez technique.

Après une présentation générale de Kafka et de la stack Confluent, sans tomber dans le discours commercial, Florent Ramière nous explique les bénéfices de KSQL, moteur de SQL pour Kafka Stream qui offre une abstraction encore plus poussée que l’API Kafka Stream.

L’accent est fort sur KSQL, nouveauté fortement poussée par Confluent. Toutes les démos sont disponibles sur son github.

 

How to deal with workflows lifecycle in Apache NiFi? – HORTONWORKS (EN)

Pierre Villard de Hortonworks propose une présentation générale de Apache NiFi, projet issu de la NSA permettant de définir des flux de données entre plusieurs systèmes.

Après avoir érigé une liste des problèmes posés par le déploiement/versioning des workflows NiFi, il présente le sous-projet NiFi Registry, une solution à ces difficultés.

Cette présentation, assez technique et à destination des utilisateurs de NiFi, fut intéressante sans pour autant que le speaker ne soit rentré dans les détails d’implémentations.

Transforming pictures into memories – PHOTOBOX (FR)

Photobox, en les personnes de Adrien Morvan et Cristina Oprean, nous montre ses différents besoins en Machine Learning et comment son architecture y répond.

En effet, que ce soit recadrage automatique d’image, suppression de doublons ou détection de l’« esthétique » d’une photo, toutes ces applications tirent parti du Deep Learning.

L’architecture choisie utilise les outils Numpy et Caffe et tourne sur AWS. En tant que participant, nous nous demandions pourquoi pas de TensorFlow ? La réponse : Cette solution date de 2014, époque à laquelle TensorFlow n’était pas encore public. Voici donc un bon exemple (finalement assez rare) de Deep Learning réussi en production.

Exploring graphs: looking for communities & leaders – QUANTMETRY (EN)

Quantmetry a présenté une conférence très théorique sur différentes applications de la théorie des graphes en s’appuyant sur le use case des Panama Papers.

On a pu parler de base de données orientée graphe, de détection de communautés et de leaders, pour ensuite finir sur une démonstration avec des données de LinkedIn. Je vous propose de découvrir la conférence en vidéo :

The internals of query execution in Spark SQL – JACEK LASKOWSKI (EN)

Jacek Laskowski, auteur du populaire Mastering Apache Spark et d’autres livres sur le sujet, rentre dans le détail de l’execution de requêtes structurées dans Spark SQL.

Sans prononcer ou presque le mot RDD, il explique comment sont générés les différents plans d’exécution lorsque l’on utilise Spark SQL qui n’est en fait qu’un moyen de générer des RDD.

Jacek Laskowski nous offre ainsi, à mes yeux, le meilleur talk de la journée. Pour plus d’informations, vous pouvez aller jeter un coup d’œil aux slides de sa présentation sur les exécutions de requêtes dans Spark SQL.

 

Building a Real Time Analytics API at Scale – ALGOLIA (EN)

Lors de cette conférence, Algolia, startup française offrant de la recherche as a Service, nous présente les choix technologiques et l’architecture choisie pour leur API d’analytics.

Avec plus de 40 milliards d’événements par mois, comment faire une API d’analytics qui répond en quelques millisecondes et ce sans avoir trop de maintenance à faire ? C’est la question que se sont posés les ingénieurs d’Algolia. Sur une base GCloud et Citus (un Postgres shardé/distribué), des roll up (agrégations) successifs sur des périodes de temps allant de 5 minutes à une journée, permettent de ne requêter que quelques lignes par appel d’API et ainsi avoir de très bons temps de réponse et un coût de stockage négligeable. La présentation de Sylvain Friquet était très claire et intéressante à suivre.

Real-Time Access log analysis – BLABLACAR (EN)

À des fins de sécurité, de contrôle et d’analytics, comment éviter le crawling de leurs concurrents ou de détecter des mauvais usages de leur API par leurs partenaires ? Blablacar avait donc besoin d’un système d’analyse temps-réel pour leurs logs d’accès. Thomas Lamirault nous présente leur solution à base de Kafka et Flink.

 

En Conclusion

Ce fut une belle première édition du DataXDay avec des talks de qualité et des speakers d’envergure auxquels je dis merci. J’étais positivement étonné du niveau technique de certaines prestations qui m’ont ouvert l’esprit sur certains fonctionnements d’outils que j’utilise tous les jours et je suppose que les conférences moins techniques ont pu plaire à des profils moins initiés. Pour la prochaine édition, un hackathon ou une fast track pourrait peut-être apporter un peu plus de peps et de variété dans cette rencontre.

Je n’ai vu que la moitié des talks qui ont eu lieu au DataXDay mais vous pouvez retrouver toutes les autres conférences en vidéo ici.

Et retrouvez toutes les informations sur la Xebia Data Factory sur le nouveau site !

 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *