Générer un Job identifiant les valeurs en doublon d'une colonne analysée

Talend Data Fabric Studio Guide utilisateur

EnrichVersion
6.5
EnrichProdName
Talend Data Fabric
task
Qualité et préparation de données
Création et développement
EnrichPlatform
Studio Talend

Lorsque vous utilisez la perspective Profiling de votre studio pour analyser une colonne dans la table d'une base de données pour fournir des statistiques simples sur le nombre de valeurs distinctes, uniques, et en doublon, vous pouvez générer ultérieurement un Job prêt à l'emploi pour supprimer les valeurs en doublon dans la colonne spécifiée.

Pour plus d'informations concernant les différents types d'indicateurs dans le groupe simple statistics (statistiques simples), consultez Statistiques simples.

Pour identifier les valeurs en doublon d'une colonne analysée, procédez comme suit :

  1. Dans la perspective Profiling de votre studio, créez une analyse de colonne et définissez les indicateurs de statistiques simples sur la colonne spécifiée. Pour les étapes détaillées de la création, consultez Définir les colonnes à analyser et configurer les indicateurs.

  2. Exécutez l'analyse pour afficher les résultats dans la vue Analysis Results.

  3. Cliquez sur le nom de la colonne analysée dans laquelle vous souhaitez séparer les valeurs uniques et en doublon, puis cliquez sur Simple Statistics pour développer la section des statistiques simples.

  4. Dans la liste Label, cliquez-droit sur Distinct Count, Unique Count ou Duplicate Count et sélectionnez Identify duplicates dans le menu contextuel.

    La perspective Integration s'ouvre dans l'espace de travail, affichant le Job généré, avec ses composants. Pour plus d'informations concernant ces composants, consultez le Guide de référence des Composants Talend.

Le composant d'entrée de base de données et le composant tUniqRow sont déjà configurés selon votre connexion et la colonne que vous analysez.

Les deux composants de sortie sont des composants de fichier, dans ce Job prêt à l'emploi, mais vous pouvez les remplacer par des composants de sortie de bases de données pour écrire les valeurs en doublons et distinctes directement dans la base de données souhaitée.

Pour configurer les deux composants de sortie :

  1. Double-cliquez sur le premier composant de sortie, avec le lien Uniques, puis, dans le champ Local Filename, définissez le chemin d'accès au fichier de sortie qui contiendra les valeurs distinctes.

  2. Double-cliquez sur le second composant de sortie avec le lien Duplicates, puis, dans le champ File Name, définissez le chemin d'accès au fichier de sortie qui contiendra les valeurs en doublon.

  3. Sauvegardez le Job et appuyez sur F6 pour l'exécuter.

    Les valeurs distinctes et en doublon sont écrites dans les fichiers de sortie spécifiés.

  4. Si nécessaire, cliquez-droit sur le tFileOutputdelimited dans le Job généré et sélectionnez Data Viewer.

    Un aperçu des données standardisées s'ouvre dans le studio.