Créer une analyse de profiling sur un fichier HDFS via une table Hive - 7.0

Guide utilisateur de Talend Data Management Platform Studio

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Data Management Platform
task
Création et développement
EnrichPlatform
Studio Talend

Pourquoi et quand exécuter cette tâche

Prérequis : La perspective Profiling du Studio doit être sélectionnée. Vous devez avoir créé une connexion à la distribution Hadoop et au fichier HDFS.

Procédure

  1. Dans la vue DQ Repository, cliquez-droit sur la connexion à HDFS à utiliser et sélectionnez Create Simple Analysis.
    Une boîte de dialogue s'ouvre et liste les schémas HDFS de la connexion.
  2. Cochez la case du fichier à profiler.
    Attendez jusqu'à ce que Success s'affiche dans la colonne Creation status.
    Remarque : La table Hive que vous créez se base sur les dossiers et non sur les fichiers. Ne sélectionnez pas des fichiers ayant des structures différentes.
  3. Cliquez sur Check Connection afin de vérifier le statut de la connexion puis cliquez sur Next pour ouvrir une nouvelle vue dans l'assistant, listant le schéma du fichier sélectionné.
  4. Modifiez le schéma si nécessaire.
    Si le schéma contient une colonne Date, assurez-vous de configurer correctement le modèle de date. Sinon, vous risquez d'avoir un résultat null.
  5. Cliquez sur Next pour ouvrir une nouvelle vue de l'assistant, dans laquelle vous pouvez créer une table avec le schéma HDFS dans une connexion à Hive.
    Si nécessaire, saisissez un nouveau nom pour la table. Utilisez des minuscules, car Hive stocke ses tables avec des noms en minuscules.
  6. Soit :
    • dans la liste Select one existed Hive Connection, sélectionner la connexion à Hive dans laquelle vous souhaitez créer la table.

      Vous devez avoir au moins une connexion à Hive correctement configurée avant de créer la table. L'option Select one existed Hive Connection est désactivée si vous n'avez pas créé au moins une connexion à Hive.

      Vous devez créer une connexion à Hive si vous sélectionnez l'option Create a new Hive Connection dans cette vue de l'assistant.

    • Ou sélectionner l'option Create a new Hive Connection afin de créer d'abord une connexion à Hive puis de créer la table dans la nouvelle connexion.

  7. Cliquez sur Finish.
    L'assistant [New Analysis] s'ouvre. Cela peut prendre un moment.
  8. Configurez les métadonnées de l'analyse puis cliquez sur Finish.
    Une nouvelle analyse sur le fichier HDFS sélectionné est automatiquement créée et s'ouvre dans l'éditeur d'analyse. Des indicateurs de statistiques simples sont automatiquement assignés aux colonnes.
    L'analyse s'applique à la table Hive, mais calcule les statistiques des données depuis HDFS en utilisant le mécanisme External tables. External tables conserve les données du fichier original en dehors de Hive. Si le fichier HDFS que vous avez choisi d'analyser est supprimé, l'analyse ne peut plus s'exécuter.
  9. Cliquez sur Refresh Data pour afficher le contenu de la colonne.
    Vous pouvez utiliser l'onglet Select Columns pour modifier les colonnes à analyser.
  10. Si nécessaire, cliquez sur Select Indicators pour ajouter d'autres indicateurs ou de nouveaux modèles aux colonnes.
  11. Exécutez l'analyse pour afficher les résultats dans la vue Analysis Results de l'éditeur.
    Pour plus d'informations concernant les analyses de colonnes, consultez Par quoi commencer ?.