Accéder au contenu principal Passer au contenu complémentaire

Extraire des valeurs distinctes

Pourquoi et quand exécuter cette tâche

Dans la perspective Profiling , vous pouvez créer une analyse de colonne·s pour calculer le nombre de valeurs les plus fréquentes pour chaque enregistrement distinct dans une colonne. Après avoir exécuté l'analyse de colonne(s), vous pouvez générer un Job prêt à l'emploi extrayant dans un fichier de sortie les valeurs distinctes d'une table de fréquence.

Vous pouvez utiliser ces valeurs distinctes comme jeu de données de référence pour d'autres processus de standardisation de données.

Dans l'exemple ci-dessous, une analyse de la colonne postal_code dans une base de données MySQL a été créée et exécuté dans la perspective Profiling .

Prérequis : vous devez déjà avoir créé et exécuté une analyse de colonne utilisant l'indicateur Value Frequency.

Pour générer un Job extrayant des valeurs distinctes d'une table de fréquence, procédez comme suit :

Procédure

  1. Dans l'éditeur d'analyse, cliquez-droit sur l'indicateur Value Frequency.
  2. Sélectionnez Generate Job.
    La perspective Integration s'ouvre sur le Job généré.
    Les paramètres simples (Basic settings) du composant de base de données sont déjà configurés par la connexion à la base de données utilisée dans l'analyse de colonne.
    Les paramètres simples (Basic settings) du composant tAggregateRow sont déjà configurés pour compter le nombre de valeurs distinctes de la table de fréquence de la colonne postal_code.
  3. Facultatif : Si nécessaire, utilisez un composant de sortie différent afin de récupérer les valeurs distinctes dans un type différent de fichier ou dans une base de données.
  4. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.
    Le Job extrait les valeurs distinctes de la table de fréquence et les écrit dans le fichier de sortie défini.
    Vous pouvez utiliser ce fichier comme une sorte de fichier de référence dans vos Jobs de qualité de données. Vous pouvez utiliser les codes postaux du fichier, par exemple, lorsque vous effectuez des correspondances de données sur des codes postaux.
    Pour plus d'informations concernant les composants et les Jobs de qualité de données, consultez le chapitre Data Quality, dans le Guide de référence des composants Talend.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !