Extraire des valeurs distinctes - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-03-06
Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Avant de commencer

Vous devez avoir créé et exécuté une analyse de colonne utilisant l'indicateur Value Frequency (Fréquence des valeurs).

Pourquoi et quand exécuter cette tâche

Dans la perspective Profiling , vous pouvez créer une analyse de colonne·s pour calculer le nombre de valeurs les plus fréquentes pour chaque enregistrement distinct dans une colonne. Après avoir exécuté l'analyse de colonne(s), vous pouvez générer un Job prêt à l'emploi extrayant dans un fichier de sortie les valeurs distinctes d'une table de fréquence.

Vous pouvez utiliser ces valeurs distinctes comme jeu de données de référence pour d'autres processus de standardisation de données.

Dans l'exemple ci-dessous, une analyse de la colonne postal_code dans une base de données MySQL a été créée et exécuté dans la perspective Profiling .

Procédure

  1. Dans l'éditeur d'analyse, cliquez-droit sur l'indicateur Value Frequency.
    Menu contextuel d'un indicateur dans la section Analyzed Columns (Colonnes analysées).
  2. Sélectionnez Generate Job.
    La perspective Integration s'ouvre sur le Job généré.
    Job généré utilisant les composants tMysqlInput, tAggregateRow et tFileOutputDelimited.
    Les paramètres simples (Basic settings) du composant de base de données sont déjà configurés par la connexion à la base de données utilisée dans l'analyse de colonne.
    Les paramètres simples (Basic settings) du composant tAggregateRow sont déjà configurés pour compter le nombre de valeurs distinctes de la table de fréquence de la colonne postal_code.
    Vue d'ensemble des paramètres simples du tAggregateRow.
  3. Facultatif : Si nécessaire, utilisez un composant de sortie différent afin de récupérer les valeurs distinctes dans un type différent de fichier ou dans une base de données.
  4. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.
    Le Job extrait les valeurs distinctes de la table de fréquence et les écrit dans le fichier de sortie défini.
    Vous pouvez utiliser ce fichier comme une sorte de fichier de référence dans vos Jobs de qualité de données. Vous pouvez utiliser les codes postaux du fichier, par exemple, lorsque vous effectuez des correspondances de données sur des codes postaux.
    Pour plus d'informations concernant les composants et les Jobs de qualité de données, consultez le chapitre Data Quality, dans le Composants de qualité de données (Data Quality).