Publié par
Il y a 5 années · 4 minutes · Data

Retours sur le Cassandra breakfast

C’est avec plaisir que Xebia organisait en partenariat avec DataStax le « Cassandra breakfast » dans ses locaux, le 4 juillet dernier.

10/10 – j’ai passé la certification CDH3 chez Xebia l’année dernière. Mon rôle est de gérer les projets liés aux problématiques Big Data. Je ne connaissais pas Cassandra auparavant. Cette présentation m’a aidé à avoir une opinion très positive de DataStax et si jamais j’étais amené à proposer une solution, je n’hésiterai pas à parler de DataStax.

Cette première édition fut un succès, grâce notamment à des échanges instructifs et constructifs entre les participants et experts de cette matinée. Voici un compte-rendu des principales informations à retenir, ainsi que la vidéo complète de la présentation d’Hayato Shimitzu (Lead Solutions Architect chez DataStax).

Cassandra Roadmap

Parmi les nouveautés que proposera la prochaine release majeure de Cassandra, la version 2.x, on retrouvera notamment comme nouveautés CAS, les Triggers, et des améliorations concernant le Off-Heap.

CAS (Compare-and-set)

Il s’agit d’un système de gestion transactionnel léger, qui permettra de répondre notamment au fameux cas de création de comptes utilisateurs. L’algorithme utilisé pour résoudre les pannes d’un ou plusieurs nœuds lors d’une transaction est basé sur Paxos. Ce système de gestion des transactions doit être utilisé avec parcimonie afin de couvrir certains cas d’utilisations très précis, on estime à 1% ce nombre de cas.

En CQL3, on pourra alors utiliser le mot clé ‘IF NOT EXISTS’, et donc l’insertion d’un utilisateur s’écrira comme suit :

INSERT INTO USERS (username, email, ...)
VALUES ('john-doe', 'john-doe@xebia.fr', ...)
IF NOT EXISTS;
Triggers

Tout comme les SGBD classiques, la communauté de Cassandra a voté pour disposer de cette fonctionnalité (voir le JIRA #CASSANDRA-1311). Un article intéressant en anglais explique le pourquoi et les cas d’utilisations des triggers dans Cassandra : http://maxgrinev.com/2010/07/23/extending-cassandra-with-asynchronous-triggers/.

Même si la syntaxe n’est pas définitive, on devrait pouvoir écrire :

CREATE TRIGGER <name> ON <table> USING <classname>;
Off-Heap

Certaines fonctionnalités dans Cassandra sont ‘Off-Heap‘ afin d’éviter le fameux ‘stop-the-world‘ du GC de la JVM. Les algorithmes de compactions des données nécessitant une forte allocation mémoires sont déjà ‘Off-Heap‘ ce qui a permis d’accroitre considérablement les performances en lecture. Dans la version 2.x, il est prévu d’étendre ce fonctionnement à d’autres fonctionnalités critiques afin d’améliorer les performances globales. La technologie utilisée derrière se base sur la bibliothèque JNA (Java Native Access).

DataStax Entreprise Edition

DataStax propose DSE (DataStax Entreprise Edition), qui est une solution clé en main à destination principalement des entreprises. Cette solution existe sous forme communautaire libre et sous forme payante avec une souscription.  Le principal avantage de DSE est de fournir un socle technique complet, afin de proposer et d’intégrer directement des composants tels que Solr et Hadoop tout en profitant de l’architecture distribué de Cassandra. Voici l’ensemble des composants de DSE :

On retrouve donc dans la dernière version de DSE, la version 3.0.3 :

  • Solr : qui est un moteur de recherche puissant comblant la pauvreté de requêtage natif de Cassandra;
  • Hadoop : qui permet de stocker ces fichiers grâce au protocole CFS compatible HDFS. De plus, on dispose de Hive et Pig pour interroger son cluster et réaliser de l’analytics.
  • OpsCenter : application web qui permet de gérer et monitorer son cluster Cassandra, à destination des DBA;
  • Des modules de sécurités : authentification internes et externes pour l’accès à la base de données, encodage des données, …

Cassandra Summit Europe

Parmi les événements à retenir pour cette année, on continue avec l’arrivé le 16 et 17 Octobre du Cassandra Summit Europe 2013 à Londres. Il s’agit de l’un des plus gros événement organisés en Europe concernant Cassandra.

Si vous êtes intéressé pour y participer le CFP est ouvert jusqu’au 6 septembre, n’hésitez pas à faire partager vos retours et expériences surtout si vous utilisez Cassandra en production depuis un certains temps ou tout simplement si vous souhaitez parler de :

  • Vos cas d’utilisations Cassandra;
  • Votre expérience personnelle Cassandra;
  • L’utilisation de Cassandra avec différents langage de programmations;
  • L’utilisation de Cassandra avec Hadoop, Solr, TitanGraphDB, et d’autres outils Open Source;

Conclusion

Avec l’arrivée de DataStax en Europe, on peut s’attendre à plus de communications et d’événements sur Cassandra dans les prochaines années à venir. De ce point de vue l’organisation du « Cassandra breakfast » a été une réelle occasion de regrouper des experts et décideurs afin d’échanger et de partager ses connaissances autours du sujet.

Pour conclure, d’un point de vue technique, la courbe d’apprentissage de Cassandra s’est considérablement réduite grâce au protocole CQL3 et à l’arrivée des drivers natifs officiels, et d’un point de vue stratégique, la solution clé en main que propose DataStax est un choix pertinent pour toutes entreprises ayant de forts besoins en ‘scalabilité‘ et plus généralement aux problématiques liées à Big Data.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *