Profiler un fichier HDFS - Cloud - 7.3

Guide d'utilisation du Studio Talend

Version
Cloud
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Dans la perspective Profiling du Studio Talend, vous pouvez générer une analyse de colonnes avec des indicateurs de statistiques simples sur un fichier HDFS via une connexion Hive.

Procédure

La séquence de création d'une analyse de profiling sur un fichier HDFS file comprend les étapes suivantes :

  1. Création d'une connexion à un cluster Hadoop.
  2. Création d'une connexion à un serveur Hive.
    Cette étape n'est pas obligatoire, comme il vous sera demandé de créer la connexion à Hive simultanément, pendant que vous créez la connexion à un fichier HDFS.
  3. Création d'une connexion à un fichier HDFS.
    Cette étape vous guide pour créer une table Hive external, qui laisse les données dans le fichier mais crée une définition de table dans le Metastore Hive. Cela permet au Studio d'exécuter des requêtes SQL sur les données du fichier via la connexion à Hive.
  4. Création d'une analyse de colonnes avec des indicateurs simples sur la table Hive.

Que faire ensuite

Vous pouvez modifier les paramètres de l'analyse et ajouter d'autres indicateurs selon vos besoins. Vous pouvez également créer ultérieurement d'autres analyses sur ce fichier HDFS en utilisant la même table Hive.