Scénario 1 : Distance de Levenshtein de 0 pour les prénoms

Composants Talend Open Studio Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Open Studio for Data Quality
Talend Open Studio for Big Data
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Open Studio for Data Integration
task
Gouvernance de données
Qualité et préparation de données
Création et développement
EnrichPlatform
Studio Talend

Ce scénario décrit un Job constitué de quatre composants dont le but est de vérifier la distance d'édition comprise entre les colonnes First Name (prénom) d'un fichier d'entrée et de comparer les données avec celles du fichier de référence. Le résultat de cette vérification de la distance de Levenshtein et le contenu du flux principal sont affichés dans une table.

Construire le Job

  1. Cliquez et déposez les composants suivants de la Palette dans l'espace de modélisation : deux tFileInputDelimited, un tFuzzyMatch et un tLogRow.

  2. Reliez le premier tFileInputDelimited au composant tFuzzyMatch à l'aide d'un lien Row > Main.

  3. Connectez le second tFileInputDelimited au tFuzzyMatch à l'aide d'une connexion de type Row > Main (qui apparaît comme Lookup dans l'espace de modélisation graphique).

  4. Reliez le tFuzzyMatch au composant de sortie tLogRow, à l'aide d'un lien Row > Main.

Configurer les composants

  1. Configurez les paramètres du premier tFileInputDelimited dans sa vue Basic settings. Parcourez votre système jusqu'au fichier d'entrée à analyser.

  2. Définissez le schéma du composant. Dans cet exemple, le schéma d'entrée possède deux colonnes, firstname et gender.

  3. Configurez le second tFileInputDelimited de la même façon.

    Avertissement

    Assurez-vous que la colonne de référence a bien été définie comme colonne clé dans le schéma du flux de référence (lookup).

  4. Double-cliquez sur le tFuzzyMatch pour ouvrir sa vue Basic settings et vérifiez son schéma.

    Le schéma doit correspondre à celui du flux d'entrée principal (Main) afin que le flux principal soit comparé au flux de référence.

    Notez que deux colonnes : Value et Matching sont ajoutées au schéma de sortie. Elles correspondent à des informations standard de correspondance et sont en lecture seule.

  5. Sélectionnez la méthode à utiliser pour la vérification des données entrantes. Dans ce scénario, la correspondance à sélectionner dans le champ Matching type est de type Levenshtein.

  6. Ensuite définissez la distance. Dans cette méthode, la distance est le nombre de caractères modifiés (insertion, suppression ou substitution) pour que l'entrée principale corresponde exactement à l'entrée de référence.

    Dans ce scénario, configurez la distance à 0 au minimum et au maximum dans les champs Min. distance et Max. distance. Ce qui signifie que seule une correspondance exacte sera redirigée en flux de sortie.

  7. Décochez la case Case sensitive pour ne pas prendre en compte la casse.

  8. Vérifiez que la colonne de correspondance et la colonne de référence sont bien sélectionnées.

  9. Laissez les autres paramètres par défaut.

Exécuter le Job

  • Enregistrez le Job et appuyez sur la touche F6 pour exécuter le Job.

Comme la distance d'édition définie est de 0 (min. et max.), la sortie correspond à une jointure entre le flux principal et le flux de référence (lookup), ainsi seules les correspondances totales avec une valeur égale à 0 sont affichées.

Pour un exemple plus évident avec une distance minimum de 1 et une distance maximum de 2, consultez Scénario 2 : Distance de Levenshtein de 1 ou 2 pour les prénoms