Créer une analyse sur un fichier HDFS - 6.3

Talend Data Fabric Studio Guide utilisateur

EnrichVersion
6.3
EnrichProdName
Talend Data Fabric
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Le Studio Talend vous permet de profiler facilement des fichiers HDFS en générant des tables dans une connexion Hive.

Pour créer une analyse de colonnes avec des indicateurs de statistiques simples sur un fichier HDFS, procédez comme suit :

Créer une connexion à un cluster Hadoop

Prérequis : Vous devez avoir ouvert la perspective Profiling du Studio. Vous devez avoir les droits et les permissions d'accès à la distribution Hadoop et à son HDFS.

  1. Dans la vue DQ Repository, développez Metadata, cliquez-droit sur Hadoop Cluster et sélectionnez Create Hadoop Cluster.

    Un assistant s'ouvre et vous guide à travers les étapes de création d'une connexion au cluster.

  2. Suivez les étapes de l'assistant afin de créer la connexion et choisissez de saisir manuellement les informations de configuration de Hadoop (Enter manually Hadoop services).

    Pour plus d'informations concernant la création de connexions aux clusters Hadoop, consultez Gérer les métadonnées Hadoop.

  3. Cliquez sur Check Services dans la dernière étape de l'assistant afin de vérifier si la connexion est établie, puis cliquez sur Finish.

    La nouvelle connexion à Hadoop s'affiche sous le nœud Hadoop Cluster dans la vue DQ Repository.

Créer une connexion à Hive

Vous pouvez créer une connexion à Hive directement depuis la connexion définie pour la distribution Hadoop. Cependant, vous pouvez procéder différemment et créer la connexion à Hive simultanément pendant que vous créez une analyse sur un fichier HDFS comme décrit dans Créer une connexion à un fichier HDFS.

Prérequis : Vous devez avoir ouvert la perspective Profiling du Studio. Vous devez avoir créé une connexion à la distribution Hadoop.

  1. Dans la vue DQ Repository, cliquez-droit sur la connexion à Hadoop à utiliser et sélectionnez Create Hive pour ouvrir un assistant.

  2. Suivez les étapes dans l'assistant pour créer la connexion puis cliquez sur Check dans la dernière étape afin de vérifier que la connexion est établie.

  3. Cliquez sur Finish.

    La nouvelle connexion à Hive est listée sous les nœuds Hadoop Cluster et DB connections dans la vue DQ Repository.

    Pour plus d'informations concernant la création de connexions à Hive, consultez Centraliser des métadonnées Hive.

Créer une connexion à un fichier HDFS

Prérequis : Vous devez avoir ouvert la perspective Profiling du Studio. Vous devez avoir créé une connexion à la distribution Hadoop.

  1. Dans la vue DQ Repository, cliquez-droit sur la connexion à Hadoop à utiliser et sélectionnez Create HDFS.

    Un assistant s'ouvre et vous guide à travers les étapes d'utilisation du schéma d'un fichier de HDFS.

  2. Suivez les étapes de l'assistant pour créer la connexion et cliquez sur Check dans la dernière étape afin de vérifier que la connexion est établie.

  3. Cliquez sur Finish.

    La nouvelle connexion à HDFS s'affiche sous le nœud Hadoop Cluster dans la vue DQ Repository.

    Pour plus d'informations concernant la création de connexions à HDFS, consultez Centraliser des métadonnées HDFS.

Créer une analyse de profiling sur un fichier HDFS via une table Hive

Prérequis : Vous devez avoir ouvert la perspective Profiling du Studio. Vous devez avoir créé une connexion à la distribution Hadoop et au fichier HDFS.

  1. Dans la vue DQ Repository, cliquez-droit sur la connexion à HDFS à utiliser et sélectionnez Create Simple Analysis.

    Une boîte de dialogue s'ouvre et liste les schémas HDFS de la connexion.

  2. Cochez la case du fichier à profiler.

    Attendez jusqu'à ce que Success s'affiche dans la colonne Creation status.

    Note

    La table Hive que vous créez se base sur les dossiers et non sur les fichiers. Ne sélectionnez pas des fichiers ayant des structures différentes.

  3. Cliquez sur Check Connection afin de vérifier le statut de la connexion puis cliquez sur Next pour ouvrir une nouvelle vue dans l'assistant, listant le schéma du fichier sélectionné.

  4. Modifiez le schéma si besoin.

    Si le schéma contient une colonne Date, assurez-vous de configurer correctement le modèle de date. Sinon, vous risquez d'avoir un résultat null.

  5. Cliquez sur Next pour ouvrir une nouvelle vue de l'assistant, dans laquelle vous pouvez créer une table avec le schéma HDFS dans une connexion à Hive.

    Si nécessaire, saisissez un nouveau nom pour la table. Utilisez des minuscules, car Hive stocke ses tables avec des noms en minuscules.

  6. Vous pouvez :

    • dans la liste Select one existed Hive Connection, sélectionner la connexion à Hive dans laquelle vous souhaitez créer la table.

      Vous devez avoir au moins une connexion à Hive correctement configurée avant de créer la table. L'option Select one existed Hive Connection est désactivée si vous n'avez pas créé au moins une connexion à Hive.

      Vous devez créer une connexion à Hive si vous sélectionnez l'option Create a new Hive Connection dans cette vue de l'assistant.

    • Ou sélectionner l'option Create a new Hive Connection afin de créer d'abord une connexion à Hive puis de créer la table dans la nouvelle connexion.

  7. Cliquez sur Finish.

    L'assistant [New Analysis] s'ouvre. Cela peut prendre un moment.

  8. Configurez les métadonnées de l'analyse puis cliquez sur Finish.

    Une nouvelle analyse sur le fichier HDFS sélectionné est automatiquement créée et s'ouvre dans l'éditeur d'analyse. Des indicateurs de statistiques simples sont automatiquement assignés aux colonnes.

    L'analyse s'applique à la table Hive, mais calcule les statistiques des données depuis HDFS en utilisant le mécanisme External tables. External tables conserve les données du fichier original en dehors de Hive. Si le fichier HDFS que vous avez choisi d'analyser est supprimé, l'analyse ne peut plus s'exécuter.

  9. Cliquez sur Refresh Data pour afficher le contenu de la colonne.

    Vous pouvez utiliser l'onglet Select Columns pour modifier les colonnes à analyser.

  10. Si nécessaire, cliquez sur Select Indicators pour ajouter d'autres indicateurs ou de nouveaux modèles aux colonnes.

  11. Exécutez l'analyse pour afficher les résultats dans la vue Analysis Results de l'éditeur.

    Pour plus d'informations concernant les analyses de colonnes, consultez Analyses de colonne(s).