Générer un Job identifiant les valeurs en doublon d'une colonne analysée - 8.0

Guide d'utilisation de Talend Big Data Platform Studio

Version
8.0
Language
Français (France)
EnrichDitaval
Big Data Platform
Product
Talend Big Data Platform
Module
Studio Talend
Content
Création et développement
Lorsque vous utilisez la perspective Profiling du Studio Talend pour analyser une colonne dans la table d'une base de données pour fournir des statistiques simples sur le nombre de valeurs distinctes, uniques, et en doublon, vous pouvez générer ultérieurement un Job prêt à l'emploi pour supprimer les valeurs en doublon dans la colonne spécifiée.

Avant de commencer

Si vous souhaitez vous connecter à une base de données Oracle, installez un client de base de données Oracle.

Procédure

  1. Dans la perspective Profiling du Studio Talend, créez une analyse de colonne et définissez les indicateurs de statistiques simples sur la colonne spécifiée. Pour des étapes détaillées concernant la création d'une analyse de colonne, consultez Définir les colonnes à analyser et configurer les indicateurs.
  2. Si l'analyse est connectée à une base de données MySQL 8, dans l'invite de commande du serveur de la base de données MySQL, définissez SET GLOBAL local_infile = 'ON';.
  3. Exécutez l'analyse pour afficher les résultats dans la vue Analysis Results.
  4. Cliquez sur le nom de la colonne analysée dans laquelle vous souhaitez séparer les valeurs uniques et en doublon, puis cliquez sur Simple Statistics pour développer la section des statistiques simples.
  5. Dans la liste Label, cliquez-droit sur Distinct Count, Unique Count ou Duplicate Count et sélectionnez Identify duplicates dans le menu contextuel.

    La perspective Integration s'ouvre dans le Studio Talend et affiche le Job généré avec les composants correspondants.

    Le composant d'entrée de base de données et le composant tUniqueRow sont déjà configurés selon votre connexion et la colonne que vous analysez.

    Les deux composants de sortie sont des composants de fichier, dans ce Job prêt à l'emploi, mais vous pouvez les remplacer par des composants de sortie de bases de données pour écrire les valeurs en doublon et distinctes directement dans la base de données souhaitée.

  6. Pour configurer les deux composants de sortie :
    1. Double-cliquez sur le premier composant de sortie, avec le lien Uniques, puis, dans le champ Local Filename, définissez le chemin d'accès au fichier de sortie qui contiendra les valeurs distinctes.
    2. Double-cliquez sur le second composant de sortie avec le lien Duplicates, puis, dans le champ File Name, définissez le chemin d'accès au fichier de sortie qui contiendra les valeurs en doublon.
    3. Enregistrez votre Job puis appuyez sur F6 pour l'exécuter.
      Les valeurs distinctes et en doublon sont écrites dans les fichiers de sortie spécifiés.
    4. Si nécessaire, cliquez-droit sur tFileOutputdelimited dans le Job généré et sélectionnez Data Viewer.

      Un aperçu des données standardisées s'ouvre dans Studio Talend.