tQASAddressRow - 6.3

Composants Talend Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du Studio Talend si vous avez souscrit à l'un des produits Talend Platform.

Les composants de gestion d'adresse dont il est question ici sont le résultat de la collaboration de Talend et Experian QAS, l'un des leaders mondiaux en gestion et de vérification d'adresses internationales.

Pour plus d'informations à propos de l'entreprise et de ses outils logiciels, visitez le site : http://www.qas.com.

Fonction

Le tQASAdressRow vérifie les adresses dans une colonne. Il fait une boucle sur chaque ligne et lit les adresses d'entrée, puis les compare aux données de QuickAddress.

Le tQASAddressRow utilise QAS Pro Web 5.16 sous Linux et 5.86 sous Windows.

Objectif

Le tQASAdressRow corrige toutes les erreurs de format ou d'orthographe, et donne le statut de vérification pour chaque ligne, puisque l'adresse peut ne pas avoir assez d'informations pour correspondre à un seul résultat retournable dans les données de QuickAddress.

Pour plus d'informations concernant les statuts de vérification, consultez Niveaux de vérifications de QuickAccess (statut de vérification).

Niveaux de vérifications de QuickAccess (statut de vérification)

Une adresse peut correspondre à l'un des six niveaux de vérification. Ces niveaux de vérification sont directement retournés par le composant tQASAddressRow, qui indique le type de correspondance retourné des adresses vérifiées. De plus, les flux de sortie des autres composants QAS sont adaptés afin de correspondre à un ou plusieurs niveau(x) de vérification.

Les six niveaux de vérification de QuickAddress sont :

  • Verified : L'adresse analysée est associée à une seule adresse retournable des données de QuickAddress. Le résultat vérifié peut être légèrement différent des adresses entrées et analysées, puisque n'importe quelle erreur de format ou d'orthographe peut avoir été corrigée, et des éléments manquants peuvent avoir été ajoutés. Quand ce type de correspondance est retourné, aucune interaction supplémentaire n'est nécessaire.

  • Interaction required : L'adresse analysée est associée à une seule adresse retournable dans les données de QuickAddress, bien que la correspondance soit moins sûre que pour le niveau Verified ci-dessus. Par conséquent, l'interaction de l'utilisateur est recommandée afin de confirmer que l'adresse est correcte.

  • PremisesPartial : L'adresse analysée n'est pas associée à un résultat complet retournable dans les données de QuickAddress, et, est, à la place, associée à une adresse partiellement complète.

    Par exemple, l'adresse est associée dans les données de QuickAddress, mais une correspondance retournable complète peut ne pas être trouvée : "63 Southerton Road, London", plutôt que "Flat A, 63 Southerton Road, London".

  • StreetPartial : L'adresse analysée n'est pas associée à un résultat retournable complet dans les données de QuickAddress, et, à la place, est associée à une adresse partiellement complète.

    Par exemple, l'adresse est associée à une rue dans les données de QuickAddress, mais un résultat retournable complet ne peut être trouvé : "Kew Road, Richmond", plutôt que "88 Kew Road, Richmond".

  • Multiple : L'adresse analysée n'est pas associée à un seul résultat retournable dans les données de QuickAddress, et, à la place, est associée également à plus d'un résultat.

    Par exemple, l'adresse est associée à deux adresses également valides, qui ne peuvent être distinguées que par les informations qui n'ont pas été fournies dans la recherche.

    L'interaction de l'utilisateur est donc nécessaire pour sélectionner l'adresse correspondante.

  • None : L'adresse analysée ne peut être associée à aucun résultat retournable dans les données de QuickAddress. Quand ce type de correspondance est retourné, la vérification de l'adresse est impossible, et l'adresse soumise doit être utilisée à sa place.

Propriétés du tQASAddressRow

Famille du composant

Data Quality

 

Basic settings

QAS WSDL url

Saisissez l'URL du document XML QuickAdress (fournit par Experian QAS).

 

Country

Sélectionnez dans la liste le pays correspondant à vos adresses d'entrée.

 

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (built-in) soit distant dans le Repository.

 

 

Built-in : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Column to analyze

Sélectionnez dans la liste la colonne que vous souhaitez analyser.

Advanced settings

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de process du Job, aussi bien au niveau du Job qu'au niveau de chaque composant.

Global Variables

NB_LINE : nombre de lignes lues par un composant d'entrée ou passées à un composant de sortie. Cette variable est une variable After et retourne un entier.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est une étape intermédiaire. Il requiert un flux d'entrée et un flux de sortie.

Scénario : Editer des adresses et donner leur statut de vérification

Ci-dessous, vous pouvez voir un Job comprenant cinq composants, créé dans Studio Talend.

Ce Job :

  • Lit un fichier .csv d'entrée contenant des informations sur des clients,

  • utilise le composant tMap pour concaténer les trois champs Address, Postal, et City (Adresse, Code postal, et Ville) du flux d'entrée en une seule colonne de sortie : Edit_Address,

  • utilise le composant tQASAddressRow pour analyser la colonne de sortie Edit_Address, et donner le statut de vérification de toutes les adresses éditées,

  • utilise un composant tFilterRow pour écrire uniquement les adresses dont le statut n'est pas équivalent à None.

  • puis affiche l'adresse dans son format correct, avec son statut de vérification dans la console.

Dans ce scénario, vous avez déjà stocké les schémas d'entrée des fichiers d'entrée dans le Repository. Pour plus d'informations concernant le stockage des métadonnées dans l'arborescence du Repository, consultez le Guide utilisateur du Studio Talend.

Construire le Job

  1. Dans l'arborescence du Repository, développez le nœud Metadata et celui où vous avez stocké les schémas d'entrée, puis glissez la métadonnée correspondante dans l'espace de modélisation graphique.

    La boîte de dialogue [Components] s'ouvre.

  2. Sélectionnez le tFileInputDelimited dans la liste, et cliquez sur OK pour fermer la boîte de dialogue.

    Le composant tFileInputDelimited s'affiche dans l'espace de modélisation graphique. Le fichier d'entrée utilisé dans ce scénario est un fichier nommé address_template. Il contient des informations personnelles relatives à des clients français.

  3. Glissez les composants suivants de la Palette dans l'espace de modélisation graphique : tMap, tQASAddressRow, tFilterRow, et tLogRow.

  4. Connectez le tFileInputDelimited au tMap, et le tQASAddressRow au tFilterRow, à l'aide de liens Main.

    Reliez le tMap au tQASAddressRow à l'aide d'un lien New Output et le tFilterRow au tLogRow, à l'aide d'un lien Filter.

Configurer les composants

  1. Double-cliquez sur le composant tMap afin d'ouvrir son éditeur, et concaténez les champs Address, Postal, et City du flux de données entrant en une seule colonne de sortie : Edit_Address.

    Cela fait, cliquez sur OK afin de fermer l'éditeur et propagez les modifications au composant suivant.

  2. Double-cliquez sur le tQASAddressRow pour afficher sa vue Basic settings et définir ses propriétés.

  3. Dans le champ QAS WSDL url, saisissez l'URL du document XML QuickAddress (fournit par Experian QAS).

  4. Dans la liste Country, sélectionnez le pays correspondant à vos adresses d'entrée, France dans cet exemple.

  5. Au besoin, cliquez sur Edit schema pour voir les flux de données d'entrée et de sortie. Le schéma de sortie doit inclure la colonne Edit_Address contenant les colonnes d'entrée initiales Address, Postal, et City.

    Le schéma de sortie des composants QuickAddress dépend du pays sélectionné, puisque chaque pays possède des normes différentes concernant les adresses.

    Cliquez sur OK pour fermer la boîte de dialogue.

  6. Dans la liste Column to analyse, sélectionnez Edit_Address.

  7. Double-cliquez sur le composant tFilterRow afin d'afficher sa vue Basic settings et définir ses propriétés.

  8. Dans la zone Conditions, cliquez sur le bouton [+] afin d'ajouter une condition au flux de sortie et dans les cellules du tableau correspondant.

    • sélectionnez la fonction nécessaire dans la liste,

    • sélectionnez l'opérateur pour lier la colonne d'entrée à la valeur,

    • sélectionnez la colonne d'entrée sur laquelle vous souhaitez agir,

    • saisissez entre guillemets la valeur de l'adresse devant être filtrée.

    Dans cet exemple, l'objectif est d'exclure les adresses dont le statut est None.

  9. Double-cliquez sur le composant tLogRow afin d'afficher sa vue Basic settings et définir ses propriétés.

    Dans cet exemple, et dans un but de clarté, l'objectif est de faire en sorte que le résultat s'affiche dans la console, dans une liste tabulaire clé/valeur pour chaque ligne.

Exécuter le Job

  • Sauvegardez votre Job, puis appuyez sur F6 afin de l'exécuter et d'afficher les résultats dans la console.

Dans les exemples de résultat ci-dessus, le tQASAddressRow lit les lignes d'entrée, corrige et formate les adresses, donne le résultat dans la ligne Edit_Address, puis donne le statut de vérification dans la ligne Status.