tFirstnameMatch - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du Studio Talend si vous avez souscrit à l'un des produits Talend Platform.

Propriétés du tFirstnameMatch

Famille de composant

Data Quality

 

Fonction

Le composant tFirstnameMatch compare la colonne du flux d'entrée contenant des prénoms aux prénoms d'un index de référence fourni par Talend et écrit les prénoms qui correspondent.

L'index comprend des prénoms pour 162 pays et plus de 1000 prénoms de référence pour différents pays. Pour plus d'informations, consultez A propos de l'index de référence embarqué dans le tFirstnameMatch.

Objectif

Ce composant permet d'assurer une qualité de données des prénoms par rapport à un index de référence afin de standardiser les données.

Basic settings

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

Une colonne en lecture seule, FIRSTNAMEMATCH est automatiquement ajoutée au schéma de sortie.

 

 

Built-in : Le schéma est créé et conservé pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisable dans divers projets et Job designs. Voir également le Guide utilisateur du Studio Talend.

 

First Names

Sélectionnez la colonne contenant les prénoms.

 

Use Gender

Ce paramètre est facultatif : cochez cette case puis sélectionnez dans la liste la colonne contenant le genre. Ceci optimisera les performances du système et donnera des résultats plus précis.

Les genres sont M (masculin) et F (Féminin).

 

Use Country

Ce paramètre est facultatif : cochez cette case puis sélectionnez dans la liste la colonne contenant les codes pays ISO 3166-1 alpha-3. Cela optimisera les performances de votre système et donnera des résultats plus précis.

 

Fuzzy Search

Cochez cette case si vous souhaitez obtenir la meilleure correspondance possible, y compris les correspondances approximatives.

Advanced settings

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de process du Job, aussi bien au niveau du Job qu'au niveau de chaque composant.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est un composant intermédiaire et nécessite un composant d'entrée et un composant de sortie.

Limitation/prérequis

L'index utilisé pour standardiser les prénoms est intégré dans ce composant. Pour le moment, il est capable de gérer les noms latins.

A propos de l'index de référence embarqué dans le tFirstnameMatch

Le composant tFirstnameMatch vérifie des prénoms par rapport à un fichier d'index file embarqué dans le composant lui-même. Ce composant recherche les prénoms dans le fichier d'index selon le genre et le pays spécifiés dans les paramètres du composant. Lorsque vous n'utilisez pas le genre et le pays comme base pour votre recherche, les prénoms sont recherchés à travers tout l'index, quel que soit le pays.

Le fichier d'index contient des prénoms de référence pour 162 pays. Certains pays listés dans l'index contiennent plus de 1000 prénoms de référence. Ces pays sont notamment les Etats-Unis, la Grande-Bretagne, l'Australie, l'Irlande, le Canada, la France, la Nouvelle-Zélande, la Suisse et les Pays-Bas (USA, GBR, AUS, IRL, CAN, FRA, NZL, CHE et NLD). Par exemple, le fichier d'index contient, entre autres, plus de 8000 prénoms américains, plus de 4000 prénoms anglais et plus de 2000 prénoms australiens.

D'autres pays contiennent moins de 1000 prénoms de référence stockés dans le fichier d'index. Pour ces pays, il est recommandé de ne pas sélectionner de colonne de pays. Ainsi, le prénom d'entrée est vérifié par rapport à tous les prénoms de référence de tous les pays du fichier d'index.

Scénario : Faire correspondre des prénoms à un index de référence embarqué

Ce scénario décrit un Job comprenant quatre composants dont le but est de faire correspondre la colonne name d'un flux d'entrée à un index de référence.

La sortie de cette mise en correspondance des prénoms est affichée dans la colonne FIRSTNAMEMATCH avec toutes les autres colonnes définies dans le schéma d'entrée du composant tFirstnameMatch.

Déposer et relier les composants

Pour déposer et relier les composants, procédez comme suit :

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : tFixedFlowInput, tFilterColumns, tFirstnameMatch et tLogRow.

  2. Reliez les trois premiers composants à l'aide de liens Row > Main.

  3. Reliez le tFirstnameMatch au tLogRow à l'aide d'un lien Row > Output.

Configurer les données d'entrée

Pour configurer les données d'entrée, effectuez les opérations suivantes :

  1. Double-cliquez sur le composant tFixedFlowInput afin d'afficher sa vue Basic settings et définir ses propriétés.

  2. Dans la liste Schema, sélectionnez Built-In puis cliquez sur le bouton [...] à côté du champ Edit Schema. Une boîte de dialogue s'affiche.

  3. Cliquez sur le bouton [+] pour ajouter autant de lignes que nécessaire pour le schéma d'entrée que vous souhaitez créer à partir de variables internes.

    Dans cet exemple, le flux d'entrée des données est constitué de plusieurs colonnes, y compris une pour les prénoms (name), deux pour les codes pays (iso2 et iso3) et une pour le genre (gender).

  4. Cliquez sur OK pour fermer la boîte de dialogue.

    Les colonnes définies s'affichent dans la zone Mode de l'onglet Basic settings du composant.

  5. Dans la zone Mode, sélectionnez l'option Use Inline Content (delimited file) pour afficher la vue correspondante.

  6. Définissez les séparateurs de lignes et de champs, respectivement dans les champs Row Separator et Field Separator. Ces séparateurs sont utilisés dans votre flux d'entrée.

  7. Dans la zone Content, saisissez les données du flux d'entrée en respectant le schéma que vous avez défini précédemment.

Configurer la mise en correspondance des données

Pour ce faire, sélectionnez les colonnes de données qui vous intéressent et mettez-les en correspondance, à l'aide du tFirstnameMatch.

  1. Cliquez sur le composant tFilterColumns afin d'afficher sa vue Basic settings et définir ses propriétés.

    Le composant tFilterColumns vous permet de construire le schéma de sortie à partir des noms de colonnes du schéma d'entrée.

  2. Cliquez sur le bouton [...] à côté du champ Edit schema pour afficher une boîte de dialogue dans laquelle vous pouvez définir le schéma de sortie.

  3. Sélectionnez les colonnes name et gender du schéma d'entrée et déplacez-les vers le schéma de sortie.

  4. Cliquez sur OK afin de valider vos modifications et fermer la boîte de dialogue.

  5. Cliquez sur le tFirstnameMatch pour afficher sa vue Basic settings et définir ses propriétés.

  6. Si nécessaire, cliquez sur le bouton [...] à côté du champ Edit schema pour voir les schémas d'entrée et de sortie puis cliquez sur OK pour fermer la boîte de dialogue.

    Note

    Le schéma de sortie de ce composant est le même que le schéma d'entrée, mais avec une colonne fixe supplémentaire : FIRSTNAMEMATCH.

  7. Dans la liste First Names, sélectionnez la colonne contenant les prénoms, name dans cet exemple.

  8. Au besoin, cochez la case Use Gender ou Use Country puis sélectionnez dans la liste la colonne contenant le genre ou le pays, respectivement. Ceci optimisera les performances de votre système et donnera des résultats plus précis.

  9. Si nécessaire, cochez la case Fuzzy Search si vous souhaitez obtenir la meilleure correspondance possible pour les prénoms, si différentes correspondances sont disponibles.

Exécuter le Job

Pour ce faire, cliquez simplement sur le composant tLogRow afin d'afficher sa vue Basic settings et définir ses propriétés ainsi que l'affichage que vous préférez obtenir.

Dans la zone Mode, sélectionnez Table (print values in cells of a table).

Sauvegardez le Job et appuyez sur F6 pour l'exécuter.

Toutes les colonnes de sortie y compris FIRSTNAMEMATCH sont affichées dans la console de la vue Run. La colonne FIRSTNAMEMATCH écrit la meilleure correspondance possible pour les prénoms.