Réorganiser les composants - 7.0

Deduplication

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
EnrichPlatform
Studio Talend

Procédure

  1. Double-cliquez sur le Job Map/Reduce que vous venez de créer afin de l'ouvrir dans l'espace de modélisation graphique. La Palette de composants Map/Reduce s'ouvre et des composants peuvent être barrés, car il n'ont pas de version Map/Reduce.
  2. Cliquez-droit sur chacun des composants en question et sélectionnez Delete afin de les supprimer.
  3. Déposez un composant tHDFSInput, un tHDFSOutput et un tJDBCOutput dans l'espace de modélisation graphique. Le tHDFSInput lit les données à partir de la distribution Hadoop utilisée, le tHDFSOutput écrit les données dans cette distribution et le tJDBCOutput écrit les données dans une base de données, par exemple, une base de données MySQL pour ce scénario. Les deux composants de sortie remplacent les deux tLogRow pour écrire les données en sortie.
    Si vous partez d'un Job vierge, déposez également un tSortRow et un tUniqRow.
  4. Connectez le tHDFSInput au tSortRow à l'aide d'un lien Row > Main et acceptez le schéma provenant du tSortRow.
  5. Connectez le tUniqRow au tHDFSOutput à l'aide d'un lien Row > Uniques et au tJDBCOutput à l'aide d'un lien Row > Duplicates.