Publié par

Il y a 3 mois -

Temps de lecture 7 minutes

Xebia Training : Le catalogue des formations Data s’étoffe !

Chez Xebia, donner des formations fait partie de notre culture et de nos valeurs concernant la qualité et le partage de la connaissance. Nous souhaitons que la formation fasse partie intégrante de l’accompagnement de nos clients, au même titre que les missions que nous réalisons, et ce sur l’ensemble des sujets sur lesquels nous intervenons.

C’est pourquoi nous allons étoffer, dès la rentrée de cette année, notre catalogue de formations Data. Ces formations sont créées de toutes pièces par les Xebians, et sont données par des Xebians. Elles se veulent être le reflet de ce que nous appliquons au quotidien sur nos missions, ainsi que des bonnes pratiques que nous cherchons à promouvoir. Le fait de développer la totalité des contenus nous permet d’être très réactifs quant à leurs mises à jour techniques, et d’adapter les sessions en fonction du public.

Vous pouvez retrouver toutes nos formations Data sur le site de Xebia Training.

Sans plus attendre, découvrons ces nouvelles formations qui viennent s’ajouter à notre catalogue. Au programme, de la sécurité de cluster, du Deep Learning, de la Data Science Agile et en production, du Data Engineering avancé avec Spark et des applications temps réel.

Sécurisez votre cluster Hadoop

La formation « Sécurisez votre cluster Hadoop » a pour objectif d’aborder la grande majorité des aspects autour de la sécurité à mettre en place sur un cluster Hadoop. La prise en compte des questions de sécurité vient bien trop souvent en dernier lors de la mise en place d’un cluster, qu’il soit on-premise ou dans le Cloud. Or, tous les composants existent pour sécuriser efficacement son environnement.

Durant ces deux jours de formations, vous aborderez :

  • La sécurité Linux
  • La sécurité Hadoop par défaut
  • L’authentification via Kerberos
  • Les impacts de Kerberos
  • Le Group Mapping
  • LDAP
  • Les autorisations
  • Le chiffrement

Les participants seront en mesure de sécuriser un cluster Hadoop et de gérer les autorisations d’usage de la majorité des composants (Hive, Impala, HBase, SolR, HDFS, Kafka, Flume, Hue).

Data Science en Production

La mise en production est une phase primordiale pour chaque projet Data Science ayant pour ambition d’aller au-delà du POC, et nécessite de répondre à certains besoins et challenges dès le démarrage. La formation « Data Science en Production » répond à ces problématiques et offre des bonnes pratiques concrètes.

Parmi les thématiques abordées, vous retrouverez :

  • L’identification des étapes primordiales au processus d’industrialisation de projets Data Science
  • L’utilisation et les bonnes pratiques en termes d’outillage logiciel, de développement et d’infrastructure
  • La prise en considération des contraintes lors de l’industrialisation
  • La manipulation des outils open source qui permettent la mise en production
  • La meilleure gestion des rôles et la communication de l’équipe

Les participants travailleront ainsi sur tout le cycle de vie d’un projet Data Science, de la phase exploratoire à la mise en production et au monitoring.

Développer, déployer et optimiser une application avec Spark

La formation « Développer, déployer et optimiser une application avec Spark » a pour objectif de rentrer dans les détails de l’utilisation et du fonctionnement de Spark. Cette formation part du constat qu’une fois que l’on connaît les bases de Spark il devient difficile de trouver des ressources qui permettent de pleinement maîtriser ce framework.

Les sujets suivants seront abordés :

  • Explication du fonctionnement de Spark (shuffle, mémoire, …)
  • Comment tester des Dataframe et avoir des tests performant
  • L’utilisation d’UDF
  • Explication et résolution des erreurs courantes
  • Le fonctionnement de catalyst
  • Le fonctionnement de PySpark
  • Optimisation des jobs Spark
  • Le logging et le monitoring

Fast Data et applications de Streaming

La formation « Fast Data and Streaming Applications » vise à proposer des solutions et des bonnes pratiques associées aux problématiques de développement d’applications de streaming, à l’aide de Kafka-Streams.

Au programme de cette formation :

  • Introduction au stream processing
  • Rôle de Kafka dans les applications temps réel
  • Frameworks de développement autour de Kafka
  • Types d’applications de systèmes temps réel
  • Concepts avancés de streaming (State Full & State Less transformations, Out of order & Late data arrival, Fenêtrage, Idempotence)
  • Qualité de la donnée
  • Monitoring
  • Sécurité

Les participants aborderont donc de nombreux aspects concrets pour la réalisation d’applications de streaming, de la gestion des états à la prise en compte des retards, en passant par les problématiques d’idempotence.

Deep Learning

La formation « Deep Learning » a pour objectif de fournir les éléments théoriques et pratiques indispensables pour permettre aux participants de comprendre les problématiques et les méthodologies pour résoudre des problèmes de Deep Learning, et de généraliser le fruit de cet enseignement à un ensemble de cas plus large. Trois frameworks sont proposés pour la partie pratique, au choix du participant : TensorFlow, Keras et PyTorch. Ils seront utilisés sur de nombreux cas pratiques faisant appel à des jeux de données d’images, de sons et de textes.

Parmi les notions abordées, nous retrouverons :

  • Introduction pratique aux frameworks
  • Optimisation mathématique
  • Réseaux de neurones fully connected à une ou plusieurs couches
  • Régularisation
  • Auto-encodeurs
  • Réseaux de neurones convolutionnels
  • Réseaux de neurones récurrents
  • Architectures Sequence to Sequence
  • Generative Adversarial Networks
  • (Deep) Reinforcement Learning

La formation mettra de plus un fort accent sur les retours d’expérience des formateurs et les bonnes pratiques de développement et d’utilisation sur des instances mono ou multi-GPU.

Data Science Agile

La formation « Data Science Agile » répond aux problématiques des équipes Data Science souhaitant mettre en place un cadre agile efficace, tout en prenant en compte les contraintes inhérentes aux projets Data Science, notamment sur sa nature exploratoire.

Parmi les sujets abordés, nous retrouverons :

  • L’émergence de Use Cases Data Science : Passer d’une vague idée au cadrage d’un Use Case
  • Parties prenantes : Quel est le bon casting pour réaliser un Use Case ?
  • Ecriture des Definition Of Ready / Definition Of Done : De quoi avons nous besoin pour travailler efficacement ?
  • Ecriture des User Stories : Spécifier le besoin en étant orienté utilisateur
  • Estimation du travail : Appréhender l’incertitude
  • Organisation en Data Science : S’adapter à un périmètre changeant au fil des feedbacks sans pour autant créer le chaos
  • Multi-projets et limites du context switching

Cette formation apportera de plus de nombreux retours d’expérience sur l’application d’un cadre agile aux projets Data Science, ce qui a marché ou pas dans certains cas, et mettra un accent fort sur l’interaction entre les formateurs et les participants pour des mises en situations concrètes.

Analyse de données et Machine Learning avec Spark

La formation « Analyse de données et Machine Learning avec Spark« , déjà présente depuis 2 ans dans notre catalogue et mise à jour régulièrement au fil des versions de Spark, vous apprendra à appliquer l’analyse traditionnelle des données, l’analyse statistique et les principaux algorithmes de Machine Learning au Big Data. Elle repose sur deux composantes essentielles de Spark : les DataFrames (Spark SQL) et Spark ML.

Les principaux apprentissages issus de cette formation seront :

  • Compréhension globale d’un système distribué et d’un job Spark
  • Manipulation de données structurées sous Spark via les DataFrames
  • Appréhension des bonnes pratiques et des notions de performances associées aux DataFrames
  • Compréhension du fonctionnement de Spark ML et de ses différentes abstractions
  • Application de nombreux algorithmes de Machine Learning et de transformations pour le Feature Engineering grâce à Spark ML

Cette formation est composée de nombreux cas pratiques pour manipuler les différentes abstractions proposées par Spark pour travailler de manière cohérente sur de l’analyse de données et du Machine Learning à l’échelle. Les participants pourront travailler ces notions en Python ou en Scala.

 

Nous espérons que ces nouvelles formations répondront à une majorité de vos besoins. Elles ont vocation à adresser le panel le plus large possible concernant nos sujets d’intervention. Pour toute information complémentaire, vous pouvez envoyer un mail à info@xebia-training.fr.

Retrouvez toutes nos offres data sur le site Xebia Data Factory.

 

Publié par

Publié par Xebia France

Xebia est un cabinet de conseil international spécialisé dans les technologies Big Data, Web, les architectures Java et la mobilité dans des environnements agiles. Depuis plus de 11 ans nous avons la volonté de partager notre expertise et nos actualités à travers notre blog technique.

Commentaire

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Nous recrutons

Être un Xebian, c'est faire partie d'un groupe de passionnés ; C'est l'opportunité de travailler et de partager avec des pairs parmi les plus talentueux.