Extraire des valeurs distinctes - Cloud - 7.3

Guide d'utilisation du Studio Talend

Version
Cloud
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-02-13
Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Pourquoi et quand exécuter cette tâche

Dans la perspective Profiling , vous pouvez créer une analyse de colonne·s pour calculer le nombre de valeurs les plus fréquentes pour chaque enregistrement distinct dans une colonne. Après avoir exécuté l'analyse de colonne(s), vous pouvez générer un Job prêt à l'emploi extrayant dans un fichier de sortie les valeurs distinctes d'une table de fréquence.

Vous pouvez utiliser ces valeurs distinctes comme jeu de données de référence pour d'autres processus de standardisation de données.

Dans l'exemple ci-dessous, une analyse de la colonne postal_code dans une base de données MySQL a été créée et exécuté dans la perspective Profiling .

Prérequis : vous devez déjà avoir créé et exécuté une analyse de colonne utilisant l'indicateur Value Frequency.

Pour générer un Job extrayant des valeurs distinctes d'une table de fréquence, procédez comme suit :

Procédure

  1. Dans l'éditeur d'analyse, cliquez-droit sur l'indicateur Value Frequency.
  2. Sélectionnez Generate Job.
    La perspective Integration s'ouvre sur le Job généré.
    Les paramètres simples (Basic settings) du composant de base de données sont déjà configurés par la connexion à la base de données utilisée dans l'analyse de colonne.
    Les paramètres simples (Basic settings) du composant tAggregateRow sont déjà configurés pour compter le nombre de valeurs distinctes de la table de fréquence de la colonne postal_code.
  3. Facultatif : Si nécessaire, utilisez un composant de sortie différent afin de récupérer les valeurs distinctes dans un type différent de fichier ou dans une base de données.
  4. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.
    Le Job extrait les valeurs distinctes de la table de fréquence et les écrit dans le fichier de sortie défini.
    Vous pouvez utiliser ce fichier comme une sorte de fichier de référence dans vos Jobs de qualité de données. Vous pouvez utiliser les codes postaux du fichier, par exemple, lorsque vous effectuez des correspondances de données sur des codes postaux.
    Pour plus d'informations concernant les composants et les Jobs de qualité de données, consultez le chapitre Data Quality, dans le Guide de référence des composants Talend.