Hadoop et studio Talend - 6.2

Talend Open Studio for Big Data Guide utilisateur

EnrichVersion
6.2
EnrichProdName
Talend Open Studio for Big Data
task
Création et développement
EnrichPlatform
Studio Talend

Lorsque des spécialistes en informatique parlent de Big Data, ils font généralement référence à des ensembles de données si volumineux et si complexes qu'ils ne peuvent être traités par les outils traditionnels de gestion de données. Ces grands volumes de données sont produits pour de nombreuses raisons. Des flux de données peuvent être générés automatiquement (rapports, logs, vidéosurveillance, etc.) ou peuvent résulter d'analyses détaillées du comportement des clients (données relatives à la consommation), des recherches scientifiques (le grand collisionneur de hadrons) ou de la consolidation de différentes sources de données.

Ces référentiels de données, contenant souvent des pétabytes et exabytes de données, sont difficiles à analyser, car les systèmes traditionnels de bases de données ne sont pas assez puissants. Les Big Data doivent être analysées dans des environnements massivement parallèles, dans lesquels la puissance de calcul est répartie entre des milliers d'ordinateurs et les résultats transférés dans un emplacement central.

La plateforme Open source Hadoop est devenue la plus utilisée pour l'analyse de données volumineuses. Ce système de fichiers distribué divise les informations en plusieurs blocs de données et répartit ces blocs dans différents systèmes du réseau (cluster Hadoop). En répartissant cette puissance de calcul, Hadoop assure un haut niveau de disponibilité et de redondance. Un "nœud maître" gère le stockage de fichiers ainsi que les requêtes.

Hadoop est une plateforme de calcul très puissante permettant de travailler avec des données volumineuses. Elle accepte les requêtes externes, les répartit dans des ordinateurs individuels dans le cluster puis les exécute en parallèle sur les nœuds individuels. Les résultats sont retournés vers un emplacement central, où ils peuvent être analysés.

Cependant, afin de tirer parti des avantages de Hadoop, les analystes de données doivent trouver un moyen de charger les données dans Hadoop et de les extraire de ce système Open source. C'est là qu'intervient le studio Talend.

Construit sur les solutions d'intégration de données de Talend, le studio permet aux utilisateurs de gérer facilement des Big Data en tirant parti de Hadoop, de ses bases de données ou de ses technologies, notamment HBase, HCatalog, HDFS, Hive, Oozie et Pig.

Le studio Talend est un environnement de développement graphique permettant les interactions avec des sources et des cibles Big Data, sans nécessité d'apprendre ou d'écrire du code. Une fois qu'une connexion Big Data est configurée, le code sous-jacent est automatiquement généré et peut être déployé en tant que service, exécutable ou Job standalone s'exécutant nativement dans votre cluster Big Data - HDFS, Pig, HCatalog, HBase, Sqoop ou Hive.

Les solutions Big Data de Talend fournissent un support complet de toutes les plateformes principales de Big Data. Les composants Big Data de Talend fonctionnent avec les distributions majeures de Hadoop, notamment Cloudera, Greenplum, Hortonworks et MapR. Talend offre un support clé en main d'un grand nombre de plateformes Big Data des principaux vendeurs d'appliances, comme Greenplum, Netezza, Teradata et Vertica.