Scénario 2 : Dédoublonner les entrées basées sur le schéma dynamique - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Dans ce scénario, vous utilisez un Job similaire à celui décrit dans le scénario précédent pour dédoublonner les données d'entrée de plusieurs familles, de telle manière qu'une seule personne par famille reste sur la liste des noms. Comme tous les composants de ce Job supportent le schéma dynamique, vous pouvez utiliser cette option pour gagner du temps en évitant de configurer chaque colonne des schémas.

Construire le Job

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFileInputDelimited, un tExtractDynamicFields, un tUniqRow, un tFileOutputDelimited et un tLogRow. Renommez-les comme ci-dessus pour mieux identifier leur rôle au sein du Job.

  2. Reliez les composants nommés People, Split_Column et Deduplicate à l'aide de liens Row > Main.

  3. Reliez le composant nommé Deduplicate au Unique_Families à l'aide d'un lien Main > Uniques.

  4. Reliez le composant nommé Deduplicate au Duplicated_Families à l'aide d'un lien Main > Duplicates.

Configurer les composants

  1. Double-cliquez sur le composant nommé People pour afficher sa vue Basic settings.

    Avertissement

    L'option de schéma dynamique est supportée uniquement en mode Built-In et requiert que le fichier d'entrée ait une ligne d'en-tête.

  2. Cliquez sur le bouton [...] près du champ File Name/Stream pour parcourir votre système jusqu'à votre fichier d'entrée.

  3. Définissez les lignes d'en-tête et de pied de page. Dans ce scénario, la première ligne du fichier d'entrée est l'en-tête.

  4. Cliquez sur Edit schema pour définir le schéma de ce composant.

    Dans ce scénario, le fichier d'entrée contient cinq colonnes : FirstName, LastName, HouseNo, Street, et City. Toutefois, comme vous allez profiter de l'option de schéma dynamique, vous n'aurez à définir qu'une seule colonne, ici nommée Dyna. Pour ce faire :

    1. Ajoutez une nouvelle ligne en cliquant sur le bouton [+].

    2. Dans le champ Column, saisissez Dyna.

    3. Dans la liste Type, choisissez Dynamic.

    4. Cliquez sur OK pour propager le schéma et fermer l'éditeur de schéma.

  5. Double-cliquez sur le composant nommé Split_Column pour afficher sa vue Basic settings.

    Ce composant vous servira à séparer la colonne du schéma d'entrée en deux colonnes : une pour le prénom et l'autre pour les informations concernant la famille. Pour ce faire :

    1. Cliquez sur Edit schema pour ouvrir la boîte de dialogue [Schema].

    2. Dans la table Output, sur la droite, cliquez sur le bouton [+] pour ajouter deux colonnes dans le schéma de sortie et appelez-les respectivement FirstName et FamilyInfo.

    3. Choisissez String dans la liste Type de la colonne FirstName pour extraire cette colonne du schéma d'entrée et prendre en compte le nom de chaque personne sur la liste des noms.

    4. Sélectionnez Dynamic dans la liste Type de la colonneFamilyInfo pour que cette colonne s'occupe des autres informations de chaque personne présente sur la liste des noms : nom de famille, adresse, rue et ville identifieront une famille.

    5. Cliquez sur OK pour propager les changements et fermer la boîte de dialogue.

  6. Double-cliquez sur le composant nommé Deduplicate pour afficher sa vue Basic settings.

  7. Dans la zone Unique key, cochez la case Key attribute pour la colonne FamilyInfo afin de dédoublonner les informations concernant la famille.

  8. Dans la vue Basic settings du tFileOutputDelimited nommé Deduplicated_Families, définissez le chemin d'accès au fichier de sortie, cochez la case Include header et laissez les autres paramètres tels qu'ils sont.

  9. Dans l'espace de modélisation graphique, double-cliquez sur le tLogRow. Dans sa vue Basic settings, sélectionnez l'option Table pour visualiser les résultats de l'exécution du Job en mode tableau.

Sauvegarder et exécuter le Job

  1. Appuyez sur Ctrl+S pour sauvegarder votre Job.

  2. Exécutez le Job en appuyant sur F6 ou en cliquant sur le bouton Run dans l'onglet Run.

    Les informations concernant les familles en doublon apparaissent dans la console Run. Une personne par famille s'affiche dans la liste des noms, dans le fichier de sortie.