Configurer le Job - 7.0

Deduplication

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
EnrichPlatform
Studio Talend

Procédure

  1. Configurez le premier subjob :
    1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFileInputDelimited, deux tFilterRow et un tFileOutputDelimited.

      Utilisez un lien Main pour connecter les composants.

    2. Connectez le tFileInputDelimited au premier tFilterRow.
    3. Connectez le premier tFilterRow au tRuleSurvivorship.
    4. Connectez le tRuleSurvivorship au deuxième tFilterRow.
    5. Connectez le tFilterRow au tFileOutputDelimited.
  2. Configurez le deuxième subjob :
    1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : deux tFileInputDelimited, un tFilterColumns, tUnite et un tFileOutputDelimited.

      Utilisez un lien Main pour connecter les composants.

    2. Connectez le premier tFileInputDelimited au tFilterColumn.
    3. Connectez le tFilterColumn au tUnite.
    4. Connectez le deuxième tFileInputDelimited au tUnite.
    5. Connectez le tUnite au tFileOutputDelimited.
  3. Connectez le tFileInputDelimited du premier subjob au tFileInputDelimited du deuxième subjob à l'aide d'un lien de type Trigger > OnSubjobOk.

Résultats