Scénario 1 : Dédoublonner des données - 6.3

Composants Talend Open Studio Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario décrit un Job à cinq composants, dont le but est de trier des entrées à partir d'une liste d'entrée comprenant des noms, de trouver des noms en doublons, et d'afficher les noms uniques ainsi que les noms en doublon dans la console Run.

Construire le Job

  1. A partir de la Palette, cliquez et déposez les composants suivants dans l'espace de modélisation graphique : un tFileInputDelimited, un tSortRow, un tUniqRow, ainsi que deux composants tLogRow, et nommez-les comme illustré ci-dessus.

  2. Connectez les composants tFileInputDelimited, tSortRow, et tUniqRow à l'aide de liens Row > Main.

  3. Connectez le tUniqRow au premier tLogRow à l'aide d'un lien Main > Uniques.

  4. Connectez le composant tUniqRow au second tLogRow via une connexion de type Main > Duplicates.

Configurer les composants

  1. Double-cliquez sur le composant tFileInputDelimited afin d'afficher l'onglet Basic settings de sa vue Component.

  2. Cliquez sur le bouton [...] à côté du champ File Name pour sélectionner le fichier contenant les données d'entrée.

  3. Définissez l'en-tête (Header) et le pied de page (Footer). Dans ce scénario, la ligne d'en-tête est la première ligne du fichier d'entrée.

  4. Cliquez sur Edit schema pour définir le schéma de ce composant. Dans ce scénario, le fichier d'entrée comprend cinq colonnes : Id, FirstName, LastName, Age, et City. Cliquez ensuite sur OK pour propager le schéma et fermer l'éditeur de schéma.

  5. Double-cliquez sur le tSortRow afin d'afficher sa vue Basic settings.

  6. Afin de disposer les entrées en fonction de l'ordre alphabétique des noms, ajoutez deux lignes au tableau Criteria en cliquant sur le bouton [+], sélectionnez les colonnes FirstName et LastName sous Schema column, sélectionnez le type de tri alphabétique (alpha), puis sélectionnez l'ordre ascendant (asc).

  7. Double-cliquez sur le composant tUniqRow afin d'afficher l'onglet Basic settings de sa vue Component.

  8. Dans la zone Unique key, sélectionnez les colonnes sur lesquelles vous souhaitez effectuer le dédoublonnage. Dans ce scénario, les noms en doublon seront triés.

  9. Dans l'onglet Basic settings de la vue Component des deux composants tLogRow, cochez l'option Table afin de visualiser le résultat de l'exécution du Job en mode tableau.

Sauvegarder et exécuter le Job

  1. Sauvegardez votre Job à l'aide des touches Ctrl+S.

  2. Exécutez le Job en appuyant sur la touche F6 ou en cliquant sur le bouton Run de l'onglet Run.

    Dans la console Run, les noms uniques et les noms en doublon sont affichés dans des tableaux différents.