- Blog Xebia France - http://blog.xebia.fr -
Revue de Presse Xebia
Posted By Xebia France On Mardi 24 janvier 2012 @ 9:30 In Revue de presse | 1 Comment

La revue de presse hebdomadaire des écosystèmes Java/JEE proposée par Xebia.
Actualité éditeurs / SSII
Evénements de notre communauté en France et à l’étranger
Il était difficile, cette semaine, de passer à côté de la nouvelle: après les rumeurs les plus folles et un teasing maîtrisé, Amazon mit fin au suspense le 18 janvier dernier en dévoilant un nouveau service baptisé Amazon DynamoDB.
Bon nombre de nos confrères ont relayé l’information: TechCrunch, ReadWriteCloud ou encore InformationWeek y sont allés de leur plume, mais c’est dans son blog que Werner Vogels, CTO d’Amazon, revient longuement sur les choix qui l’ont poussé à mettre au point DynamoDB.
Sans surprise, DynamoDB serait le fruit d’un double retour d’expérience: celui de Dynamo d’une part, la solution NoSQL mise au point par Amazon dès 2007 et qui est à l’origine d’Apache Cassandra, Voldemort, Riak et de bien d’autres solutions NoSQL orientées clé-valeur; et celui de SimpleDB d’autre part, une autre solution non-relationnelle également développée par Amazon depuis 2007.
Dynamo, on le sait, fut une des toutes premières solutions non-relationnelles à s’attaquer aux principes des systèmes massivement distribués, hautement scalables et fiables. De l’aveu de Vogels, ce fut une réussite technique incontestable, mais le succès auprès des développeurs n’a jamais atteint le niveau escompté, sans doute en raison de la complexité du système.
SimpleDB, en revanche, était plus limitée mais aussi plus flexible et plus facile d’administration, et a fini par l’emporter en popularité auprès des développeurs. Un brin rancunier, Vogels explique qu’en préférant SimpleDB à Dynamo « les développeurs on choisi la simplicité plutôt que la précision » en « votant avec leurs pieds » (sic). En somme « les développeurs voulaient un service », non une infrastructure.
Amazon DynamoDB, selon Vogels, est un peu le meilleur des deux mondes: un service cloud bâti sur les principes solides dérivés de Dynamo (scalabilité incrémentale, haute performance prévisible), tout en gardant la facilité d’administration et le côté « clé-en-mains » qui ont fait le succès de SimpleDB.
Selon Vogels toujours, DynamoDB compte les avantages suivants sur ses prédécesseurs:
Enfin, le pricing a été complètement revu. Finies les obscures « heures machine » de SimpleDB, place à une grille tarifaire simple:
(Une unité de capacité en lecture ou écriture correspond, selon Vogel, respectivement à une capacité de lecture ou d’écriture par seconde pour des objets allant jusqu’à 1 kilo-octet en taille.)
Enfin, il faudrait noter que DynamoDB est intimement lié aux services Elastic MapReduce proposés par Amazon: il sera donc possible d’utiliser DynamoDB dans des opérations MapReduce, ce qui ouvre des perspectives intéressantes pour le traitement en quasi temps réel de grands volumes de données, directement sur la base de données de production, et donc en phase avec l’approche BigData.
La version 0.3 de Visuwall est sortie la semaine dernière. Pour rappel, cet outil avait déjà fait l’objet d’un article dans notre blog : Visuwall – Mixer vos outils de build et de qualité. Vous pouvez dès à présent télécharger cette nouvelle version ici sur le repository Maven.
Cette version apporte son lot de nouveautés :
Le changelog complet est disponible pour également suivre la correction des bugs.
La version 0.4 est dores et déjà en développement, toutes propositions d’évolution ou de rapport de bugs sont les bienvenues via un mail à cette adresse: visuwall.ci@gmail.com ou directement via l’issue tracker Github du projet.
Vous pouvez également nous suivre sur Twitter : @visuwallci et nous soumettre des photos de Visuwall en action comme ci-dessous :

Hadoop a été historiquement développé pour distribuer Nutch, un moteur de recherche open source. Hadoop vous permet désormais d’analyser facilement de gros volumes de données tel que l’ensemble des pages web. Obtenir celles-ci demande cependant plus d’effort. Il faut en effet mettre en place votre infrastructure pour crawler les sites qui vous intéressent et ceci n’est pas trivial. La fondation Common Crawl s’est donnée pour but de construire et maintenir un crawl de l’ensemble du web afin de créer une nouvelle vague d’innovation, d’éducation et de recherche. En effet, le web est une mine d’informations mais pour l’instant son exploitation se fait par un cercle restreint d’acteurs : Google, Bing, Yahoo…
Depuis le 20 janvier, le corpus Common Crawl est disponible au sein d’Amazon Web Services. Certains pourront s’étonner qu’il ne s’agisse pas d’un simple lien téléchargeable, mais la solution se veut pragmatique: en effet la taille du corpus (60 téraoctets) impose de stocker ces informations à proximité de leur lieu de traitement. Amazon, en tant que leader dans les solutions IaaS (EC2/MapReduce), est alors un choix qui se justifie. Le corpus contient 5 milliards de pages web. Ceci représente une fraction du web dont la véritable taille reste à estimer. Cet ensemble de données est donc amené à grossir davantage. Le corpus Common Crawl n’est pas un projet isolé et rejoint de nombreux datasets hébergés également par Amazon traitant de sujets variés allant des variations du génome humain au graphe social de l’univers Marvel.
Article printed from Blog Xebia France: http://blog.xebia.fr
URL to article: http://blog.xebia.fr/2012/01/24/revue-de-presse-xebia-2012-04/
Click here to print.