Quelques tests avec Cloudera

La firme Cloudera se consacre au développement de logiciels fondés sur Apache Hadoop, permettant l'exploitation de Big Data, à savoir des bases de données accumulant plusieurs pétaoctets. (source Wikipedia)

Cloudera propose des logiciels, services et soutien dans trois différents catégories :
Cloudera Enterprise inclut CDH(Cloudera’s Distribution Including Apache Hadoop) et un abonnement annuel (par nœud) comprenant support technique et Cloudera Manager. Il est disponible en trois éditions : Basic, Flex et Data Hub.
Cloudera Express comprend CDH et une version de Cloudera Manager, il manque quelques fonctionnalités d'entreprise telles que la mise à niveau propagée et sauvegarde/reprise après sinistre.
CDH peut être téléchargé depuis le site de Cloudera, gratuitement, mais sans aucun support technique ni Cloudera Manager.
CDH contient les principaux éléments, de base du framework Hadoop (MapReduce et HDFS), ainsi que d'autres composants orientés vers les entreprises qui assurent la sécurité, la haute disponibilité, et l'intégration avec le matériel et les autres logiciels (HDFS &MapReduce ,Impala (en) ,Apache Spark ,HBase,Accumulo ,Apache Kafka (en)).
En Octobre 2012, Cloudera a annoncé le projet de Cloudera Impala (en), un moteur de requête distributed open-source pour Apache Hadoop.

Cloudera offre gratuitement des VMs pour se formeret beaucoup de tutoriaux. 
Les jeux de données sont fournis dans la VM pour les exercice. 
Pré-requis: 4Go de disque et 4Go de RAM pour la plus petite des VM.
https://www.cloudera.com/content/www/en-us/developers/get-started-with-hadoop-tutorial.html



Comments