Extraire des valeurs distinctes - 7.1

Guide utilisateur de Talend Data Fabric Studio

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Fabric
task
Création et développement
EnrichPlatform
Studio Talend

Pourquoi et quand exécuter cette tâche

De la perspective Profiling du Studio, vous pouvez créer une analyse de colonne(s) pour calculer le nombre de valeurs les plus fréquentes pour chaque enregistrement distinct dans une colonne. Après avoir exécuté l'analyse de colonne(s), vous pouvez générer un Job prêt à l'emploi extrayant dans un fichier de sortie les valeurs distinctes d'une table de fréquence.

Vous pouvez utiliser ces valeurs distinctes comme ensemble de données de référence pour d'autres processus de standardisation de données.

Dans l'exemple ci-dessous, une analyse de la colonne postal_code dans une base de données MySQL a été créée et exécuté dans la perspective Profiling du Studio.

Prérequis : vous devez déjà avoir créé et exécuté une analyse de colonne utilisant l'indicateur Value Frequency.

Pour générer un Job extrayant des valeurs distinctes d'une table de fréquence, procédez comme suit :

Procédure

  1. Dans l'éditeur d'analyse, cliquez-droit sur l'indicateur Value Frequency.
  2. Sélectionnez Generate Job.
    La perspective Integration s'ouvre sur le Job généré.
    Les paramètres simples (Basic settings) du composant de base de données sont déjà configurés par la connexion à la base de données utilisée dans l'analyse de colonne.
    Les paramètres simples (Basic settings) du composant tAggregateRow sont déjà configurés pour compter le nombre de valeurs distinctes de la table de fréquence de la colonne postal_code.
  3. Si nécessaire, utilisez un composant de sortie différent afin de récupérer les valeurs distinctes dans un différent type de fichier ou dans une base de données.
  4. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.
    Le Job extrait les valeurs distinctes de la table de fréquence et les écrit dans le fichier de sortie défini.
    Vous pouvez utiliser ce fichier comme une sorte de fichier de référence dans vos Jobs de qualité de données. Vous pouvez utiliser les codes postaux du fichier, par exemple, lorsque vous effectuez des correspondances de données sur des codes postaux.
    Pour plus d'informations concernant les composants et les Jobs de qualité de données, consultez le chapitre Data Quality, dans le Guide de référence des composants Talend.