Configurer les composants - 7.0

Deduplication

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
EnrichPlatform
Studio Talend

Procédure

  1. Double-cliquez sur le tFileInputExcel afin d'afficher sa vue Component.
    Tous les propriétés sont automatiquement renseignées. Si vous n'avez pas défini vos schémas d'entrée localement, dans le Repository, remplissez les informations manuellement, après avoir sélectionné Built-In dans les listes Property Type et Schema.
  2. Double-cliquez sur le tSurviveFields afin d'afficher sa vue Component et définir ses propriétés.
  3. Cliquez sur le bouton Sync columns afin de récupérer le schéma du composant précédent. Vous pouvez cliquer sur le bouton [...] à côté du champ Edit schema, afin de voir le schéma.
  4. Dans le tableau Key, cliquez sur le bouton [+] afin d'ajouter une nouvelle ligne puis cliquez sur la ligne et sélectionnez dans la liste la colonne que vous voulez utiliser pour fusionner les données.
    Vous pouvez sélectionner plusieurs colonnes comme ensemble d'agrégation, si vous souhaitez fusionner les données selon plusieurs critères. Dans ce scénario, l'objectif est d'utiliser la colonne grp pour fusionner les données.
  5. Dans le tableau Operations, cliquez sur le bouton [+] pour ajouter de nouvelles lignes. Vous pouvez définir les colonnes de sortie qui contiendront les résultats de l'opération de fusion. Dans ce scénario, l'objectif est de fusionner les données de trois colonnes, firstname, gender et count.
  6. Cliquez sur la première ligne de la colonne Output column, et sélectionnez la première colonne de sortie qui contiendra les résultats de la fusion.
    • Cliquez sur la première ligne de la colonne Function, et sélectionnez l'opération de fusion que vous souhaitez effectuer.

    • Cliquez sur la première ligne de la colonne Input column, et sélectionnez la colonne à partir de laquelle vous souhaitez prendre les valeurs.

    • Cliquez sur la première ligne de la colonne Rank column, et sélectionnez la colonne qui sera utilisée comme base de l'opération de fusion.

    • Répétez le processus afin de définir les paramètres de l'opération de fusion pour toutes les colonnes que vous souhaitez écrire dans le fichier de sortie.

    L'objectif est de lire les données des colonnes d'entrée firstname et gender, et de n'écrire que les valeurs de la valeur maximale de rang (nombre de lignes) dans des colonnes de sortie firstname et gender. L'objectif est également de lire les données de la colonne d'entrée count, et d'écrire dans une colonne de sortie count les valeurs ayant le numéro de groupe (grp) le plus élevé.
  7. Double-cliquez sur le composant tFileOutputExcel pour ouvrir sa vue Basic settings.
  8. Spécifiez le chemin d'accès au fichier cible, cochez la case Include header et laissez les autres paramètres tels qu'ils sont.