Générer un Job identifiant les valeurs en doublon d'une colonne analysée

Lorsque vous utilisez la perspective Profiling pour analyser une colonne dans une table de base de données pour fournir des statistiques simples sur le nombre de valeurs distinctes, uniques et en doublon, vous pouvez générer ultérieurement un Job prêt à l'emploi pour supprimer les valeurs en doublon dans la colonne spécifiée.

Avant de commencer

Si vous souhaitez vous connecter à une base de données Oracle, installez un client de base de données Oracle.

Procédure

Dans la perspective Profiling , vous pouvez :
1. Créer une analyse de colonnes. Pour des étapes détaillées sur la création d'une analyse de colonnes, consultez Définir les colonnes à analyser et configurer les indicateurs.
2. Configurer des indicateurs de statistiques simples sur la colonne spécifiée.
Si l'analyse est connectée à une base de données MySQL 8, dans l'invite de commande du serveur de la base de données MySQL, définissez SET GLOBAL local_infile = 'ON';.
Exécutez l'analyse pour afficher les résultats dans la vue Analysis Results.
Cliquez sur le nom de la colonne analysée dans laquelle vous souhaitez séparer les valeurs uniques et en doublon, puis cliquez sur Simple Statistics pour développer la section des statistiques simples.
Dans la liste Label, cliquez-droit sur Distinct Count, Unique Count ou Duplicate Count et sélectionnez Identify duplicates dans le menu contextuel.

La perspective Integration s'ouvre dans le Studio Talend et affiche le Job généré avec les composants correspondants.

Le composant d'entrée de base de données et le composant tUniqueRow sont déjà configurés selon votre connexion et la colonne que vous analysez.

Les deux composants de sortie sont des composants de fichier, dans ce Job prêt à l'emploi, mais vous pouvez les remplacer par des composants de sortie de bases de données pour écrire les valeurs en doublon et distinctes directement dans la base de données souhaitée.
Pour configurer les deux composants de sortie :
1. Double-cliquez sur le premier composant de sortie, avec le lien Uniques, puis, dans le champ Local Filename, définissez le chemin d'accès au fichier de sortie qui contiendra les valeurs distinctes.
2. Double-cliquez sur le second composant de sortie avec le lien Duplicates, puis, dans le champ File Name, définissez le chemin d'accès au fichier de sortie qui contiendra les valeurs en doublon.
3. Sauvegardez le Job et appuyez sur F6 pour l'exécuter.
  Les valeurs distinctes et en doublon sont écrites dans les fichiers de sortie spécifiés.
4. Si nécessaire, cliquez-droit sur tFileOutputdelimited dans le Job généré et sélectionnez Data Viewer.
  Un aperçu des données standardisées s'ouvre dans Studio Talend.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici