Configurer les composants - 6.5
Deduplication
- EnrichVersion
- 6.5
- EnrichProdName
- Talend Big Data
- Talend Big Data Platform
- Talend Data Fabric
- Talend Data Integration
- Talend Data Management Platform
- Talend Data Services Platform
- Talend ESB
- Talend MDM Platform
- Talend Open Studio for Big Data
- Talend Open Studio for Data Integration
- Talend Open Studio for ESB
- Talend Open Studio for MDM
- Talend Real-Time Big Data Platform
- EnrichPlatform
- Studio Talend
- task
- Création et développement > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
- Gouvernance de données > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
- Qualité et préparation de données > Systèmes tiers > Composants Data Quality > Composants de dédoublonnage
Procédure
-
Double-cliquez sur le composant tFileInputDelimited afin d'afficher l'onglet Basic settings de sa vue Component.
-
Cliquez sur le bouton [...] à côté du
champ File Name pour sélectionner le
fichier contenant les données d'entrée.
-
Définissez l'en-tête (Header) et le pied
de page (Footer). Dans ce scénario, la
ligne d'en-tête est la première ligne du fichier d'entrée.
-
Cliquez sur Edit schema pour définir le
schéma de ce composant. Dans ce scénario, le fichier d'entrée comprend cinq
colonnes : Id, FirstName,
LastName, Age, et
City. Cliquez ensuite sur OK pour propager le schéma et fermer l'éditeur de
schéma.
-
Double-cliquez sur le tSortRow afin
d'afficher sa vue Basic settings.
-
Afin de disposer les entrées en fonction de l'ordre alphabétique des noms,
ajoutez deux lignes au tableau Criteria en
cliquant sur le bouton [+], sélectionnez
les colonnes FirstName et LastName
sous Schema column, sélectionnez le type de
tri alphabétique (alpha), puis sélectionnez l'ordre
ascendant (asc).
-
Double-cliquez sur le composant tUniqRow
afin d'afficher l'onglet Basic settings de
sa vue Component.
-
Dans la zone Unique key, sélectionnez les
colonnes sur lesquelles vous souhaitez effectuer le dédoublonnage. Dans ce
scénario, les noms en doublon seront triés.
-
Dans l'onglet Basic settings de la vue
Component des deux composants tLogRow, cochez l'option Table afin de visualiser le résultat de l'exécution du Job
en mode tableau.