Créer une analyse de profiling sur un fichier HDFS via une table Hive - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-03-06
Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Avant de commencer

  • Vous avez sélectionné la perspective Profiling .
  • Vous devez avoir créé une connexion à la distribution Hadoop et au fichier HDFS.

Pourquoi et quand exécuter cette tâche

Vous pouvez profiler des fichiers des formats suivants :
  • TXT
  • CSV
  • Parquet, avec une structure plate

Procédure

  1. Dans la vue DQ Repository, cliquez-droit sur la connexion à HDFS à utiliser et sélectionnez Create Simple Analysis.
    Une boîte de dialogue s'ouvre et liste les schémas HDFS de la connexion.
    Vue d'ensemble des schémas HDFS dans une connexion.
  2. Cochez la case du fichier à profiler.
    Attendez jusqu'à ce que Success s'affiche dans la colonne Creation status.
    Remarque : La table Hive que vous créez se base sur les dossiers et non sur les fichiers. Ne sélectionnez pas des fichiers ayant des structures différentes.
  3. Cliquez sur Check Connection (Vérifier la connexion) afin de vérifier le statut de la connexion puis cliquez sur Next (Suivant) pour ouvrir une nouvelle vue dans l'assistant, listant le schéma du fichier sélectionné.
    Vue d'ensemble du schéma d'un fichier sélectionné.
  4. Modifiez le schéma si nécessaire.
    Si le schéma contient une colonne Date, assurez-vous de configurer correctement le modèle de date. Sinon, vous risquez d'avoir un résultat null.
  5. Cliquez sur Next pour ouvrir une nouvelle vue de l'assistant, dans laquelle vous pouvez créer une table avec le schéma HDFS dans une connexion à Hive.
  6. Facultatif : Si nécessaire, saisissez un nouveau nom pour la table. Utilisez des minuscules, car Hive stocke ses tables avec des noms en minuscules.
    Exemple de nom en minuscules dans le champ New Table Name (Nom de la nouvelle table).
  7. Soit :
    • dans la liste Select one existed Hive Connection, sélectionner la connexion à Hive dans laquelle vous souhaitez créer la table.

      Vous devez avoir au moins une connexion à Hive correctement configurée avant de créer la table. L'option Select one existed Hive Connection est désactivée si vous n'avez pas créé au moins une connexion à Hive.

      Vous devez créer une connexion à Hive si vous sélectionnez l'option Create a new Hive Connection dans cette vue de l'assistant.

    • Ou sélectionner l'option Create a new Hive Connection afin de créer d'abord une connexion à Hive puis de créer la table dans la nouvelle connexion.
  8. Cliquez sur Finish (Terminer).
    L'assistant [New Analysis] s'ouvre.
  9. Configurez les métadonnées de l'analyse puis cliquez sur Finish.
    Vue d'ensemble des sections Data Preview (Aperçu des données) et Analyzed Columns (Colonnes analysées).

    Une nouvelle analyse sur le fichier HDFS sélectionné est automatiquement créée et s'ouvre dans l'éditeur d'analyse. Des indicateurs de statistiques simples sont automatiquement assignés aux colonnes.

    L'analyse s'applique à la table Hive, mais calcule les statistiques des données depuis HDFS en utilisant le mécanisme External tables. External tables conserve les données du fichier original en dehors de Hive. Si le fichier HDFS que vous avez choisi d'analyser est supprimé, l'analyse ne peut plus s'exécuter.

  10. Cliquez sur Refresh Data pour afficher le contenu de la colonne.
    Vous pouvez utiliser l'onglet Select Columns pour modifier les colonnes à analyser.
  11. Si nécessaire, cliquez sur Select Indicators pour ajouter d'autres indicateurs ou de nouveaux modèles aux colonnes.
  12. Exécutez l'analyse pour afficher les résultats dans la section Analysis Results (Résultats d'analyse) dans l'éditeur.
    Tableaux et graphiques pour l'indicateur Simple Statistics (Statistiques simples).

    Pour plus d'informations concernant les analyses de colonnes, consultez Par quoi commencer ?.