Générer un Job identifiant les valeurs en doublon d'une colonne analysée - Cloud - 8.0

Guide d'utilisation du Studio Talend

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement
Last publication date
2024-02-22
Disponible dans...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Lorsque vous utilisez la perspective Profiling pour analyser une colonne dans une table de base de données pour fournir des statistiques simples sur le nombre de valeurs distinctes, uniques et en doublon, vous pouvez générer ultérieurement un Job prêt à l'emploi pour supprimer les valeurs en doublon dans la colonne spécifiée.

Avant de commencer

Si vous souhaitez vous connecter à une base de données Oracle, installez un client de base de données Oracle.

Procédure

  1. Dans la perspective Profiling , vous pouvez :
    1. Créer une analyse de colonnes. Pour des étapes détaillées concernant la création d'une analyse de colonne, consultez Définir les colonnes à analyser et configurer les indicateurs.
    2. Configurer des indicateurs de statistiques simples sur la colonne spécifiée.
  2. Si l'analyse est connectée à une base de données MySQL 8, dans l'invite de commande du serveur de la base de données MySQL, définissez SET GLOBAL local_infile = 'ON';.
  3. Exécutez l'analyse pour afficher les résultats dans la vue Analysis Results.
  4. Cliquez sur le nom de la colonne analysée dans laquelle vous souhaitez séparer les valeurs uniques et en doublon, puis cliquez sur Simple Statistics pour développer la section des statistiques simples.
    Menu contextuel d'un libellé dans la section Simple Statistics (Statistiques simples).
  5. Dans la liste Label, cliquez-droit sur Distinct Count, Unique Count ou Duplicate Count et sélectionnez Identify duplicates dans le menu contextuel.

    La perspective Integration s'ouvre dans le Studio Talend et affiche le Job généré avec les composants correspondants.

    Job généré utilisant les composants tMysqlInput, tUniqRow, tMysqlOutputBulkExec et tFileOutputDelimited.

    Le composant d'entrée de base de données et le composant tUniqueRow sont déjà configurés selon votre connexion et la colonne que vous analysez.

    Les deux composants de sortie sont des composants de fichier, dans ce Job prêt à l'emploi, mais vous pouvez les remplacer par des composants de sortie de bases de données pour écrire les valeurs en doublon et distinctes directement dans la base de données souhaitée.

  6. Pour configurer les deux composants de sortie :
    1. Double-cliquez sur le premier composant de sortie, avec le lien Uniques, puis, dans le champ Local Filename, définissez le chemin d'accès au fichier de sortie qui contiendra les valeurs distinctes.
    2. Double-cliquez sur le second composant de sortie avec le lien Duplicates, puis, dans le champ File Name, définissez le chemin d'accès au fichier de sortie qui contiendra les valeurs en doublon.
    3. Sauvegardez le Job et appuyez sur F6 pour l'exécuter.
      Les valeurs distinctes et en doublon sont écrites dans les fichiers de sortie spécifiés.
    4. Si nécessaire, cliquez-droit sur tFileOutputdelimited dans le Job généré et sélectionnez Data Viewer.
      Un aperçu des données standardisées s'ouvre dans Studio Talend.
      Vue d'ensemble d'un aperçu de données analysées.