tLoqateAddressRow - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du Studio Talend si vous avez souscrit à l'un des produits Talend Platform.

Ce composant de gestion d'adresses est le résultat de la collaboration de Talend et de Loqate, l'un des leaders mondiaux d'informations de localisation précises et de haute qualité.

Pour plus d'informations concernant l'entreprise et ses outils logiciels, consultez le site Web http:// www.loqate.com/ (en anglais).

Propriétés du tLoqateAddressRow

Famille du composant

Data Quality

 

Fonction

Le composant tLoqateAddressRow parse, standardise, vérifie, nettoie, translittère et formate les adresses internationales.

Ce composant utilise Loqate Global Knowledge Repository, qui contient les adresses définitives et les données de référence géographiques de plus de 240 pays, dans différentes langues et ensembles de caractères.

Le tLoqateAddressRow utilise la version Q4 2012.

Objectif

Le tLoqateAddressRow vous permet de parser du texte structuré ou non structuré en des adresses libellées et met les composants des adresses dans les champs appropriés.

Vous pouvez comparer les données d'adresses par rapport aux données de référence afin de vous assurer qu'elles sont précises et complètes. Vous pouvez corriger l'orthographe, ajouter des données manquantes, comme la ville, la région ou le code postal et enrichir les adresses avec d'autres éléments, comme la latitude et la longitude, ou d'autres données pertinentes.

Basic settings

Schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (Built-in), soit distant dans le Repository.

 

 

Built-in : Le schéma sera créé et conservé pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans divers projets et Jobs. Voir également le Guide utilisateur du Studio Talend.

 

Edit Schema

Cliquez sur le bouton [...] et définissez le schéma d'entrée et le schéma de sortie de données d'adresses.

Assurez-vous de définir dans le schéma de sortie toutes les colonnes nécessaires pour écrire en sortie les données formatés que vous souhaitez récupérer du tLoqateAddressRow.

 

Input Address

Address field : ajoutez des lignes à la table et sélectionnez dans la liste des composants prédéfinis les champs qui contiendront les adresses d'entrée.

Le tLoqateAddressRow fournit une longue liste de champs individuels car certains pays ont des structures d'adresses plus complexes que d'autres. Pour plus d'informations concernant les champs d'entrée, consultez Champs d'adresses dans le tLoqateAddressRow.

Input Column : ajoutez des lignes à la table et sélectionnez dans la liste les colonnes contenant les adresses d'entrée. Le schéma d'entrée peut contenir une ou plusieurs colonne(s) et même contenir des colonnes ne représentant pas de données d'adresses.

 

Output Address

Address field : ajoutez des lignes à la table et sélectionnez dans la liste des composants prédéfinis les champs qui contiendront les adresses de sortie. Le composant mappe les valeurs de ces champs vers les colonnes de sortie définies dans cette table.

Le tLoqateAddressRow fournit une longue liste de champs individuels car certains pays ont des structures d'adresses plus complexes que d'autres. Pour plus d'informations concernant les champs de sortie, consultez Champs d'adresses dans le tLoqateAddressRow.

Output Column : ajoutez des lignes à la table et sélectionnez dans la liste les colonnes qui contiendront les adresses de sortie.

Si vous choisissez d'avoir une colonne de sortie dans la table Output Address ayant le nom exact d'une colonne d'entrée, la valeur de la colonne d'entrée sera écrasée par la valeur donnée par le composant tLoqateAddressRow.

Le schéma de sortie contient deux colonnes standard de sortie en lecture seule :

-STATUS : retourne le statut du traitement des adresses d'entrée. Pour plus d'informations concernant le statut des traitements, consultez Statut du traitement dans le tLoqateAddressRow.

-ACCURACYCODE : retourne le code de vérification pour les adresses traitées. Pour plus d'informations concernant les valeurs dont se compose ce code et les implications de chaque segment, consultez Codes de vérification d'adresses dans le tLoqateAddressRow.

 

Loqate Data Path

Configurez le chemin d'accès au Loqate Global Knowledge Repository fourni par Loqate et installé localement.

Avant de pouvoir utiliser le composant tLoqateAddressRow, vous devez commander et télécharger l'API Loqate Local et Global Knowledge Repository depuis http:// www.loqate.com/ (en anglais).

Le composant tLoqateAddressRow utilise la version Q4 2012.

Advanced settings

Server options

Configurez les options du serveur comme suit :

-Address Line Separator : définissez la chaîne de caractères séparant les composants d'adresse en sortie dans les champs d'adresse en sortie. Le séparateur par défaut est (<BR>).

-Default Country : sélectionnez le nom de pays pour lequel le code ISO 3166-1 alpha-3 doit être utilisé lors du parsing des données et si aucun pays identifiable n'est trouvé dans l'enregistrement d'entrée.

-Forced Country : sélectionnez le nom du pays pour lequel le code ISO 3166-1 alpha-3 doit être utilisé pour tous les enregistrements d'entrée lors du parsing des données.

-Output Script : utilisez cette option afin de translittérer l'adresse de sortie.

Sélectionnez Latin pour encoder les résultats du parsing en Latin, c'est-à-dire en caractères occidentaux.

Sélectionnez Native pour encoder les résultats du parsing à l'aide du script pays.

Ci-dessous se trouve une liste des jeux de caractères (scripts) et des langues que le tLoqateAddressRow peut translittérer :

Latn - Latin (caractères occidentaux),

Cyrl - Cyrillique (Russe),

Grek - Grec (Grèce)

Hebr - Hébreu (Israël),

Hani - Kanji (Japon),

Hans - Chinois simplifié (Chine),

Arab - Arabe (Emirats arabes unis),

Thai - Thaï (Thaïlande),

Hang - Hangeul (Corée du Sud),

Native - sortie écrite via le script natif quand possible.

-Minimum match score : spécifiez le score de correspondance minimum qu'un enregistrement doit atteindre pour ne pas annuler le parsing. La valeur par défaut est zéro. Les valeurs valides sont comprises entre zéro et 100.

Cette option est très utile lorsque vous souhaitez avoir, dans les champs de sortie, les données d'entrée, si un niveau donné de vérification (score de correspondance minimum) n'a pas été atteint.

 

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau des composants.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est une étape intermédiaire. Il requiert un flux d'entrée et un flux de sortie.

Champs d'adresses dans le tLoqateAddressRow

Certains pays ont des structures d'adresses plus complexes que d'autres. Par exemple, l'utilisation de champs individuels dans ce composant varie selon le pays d'entrée et des données de références disponibles.

Le tableau ci-dessous liste tous les champs d'entrée et de sortie dans le tLoqateAddressRow. Le champ pouvant être utilisé en entrée est désigné comme [in], [out] désignant un champ présent en sortie et [in,out] désigne un champ pouvant être utilisé en entrée et en sortie.

Nom du champ

Description

Address [in,out]

utilisé pour spécifier l'adresse postale complète dans le pays correspondant.

Address1, Address2, ... Address12 [in,out]

utilisé pour spécifier les données d'entrée pour la ligne d'adresse du pays correspondant, divisées en lignes individuelles d'adresse.

DeliveryAddress [out]

utilisé pour spécifier l'adresse complète comprenant les retours à la ligne, sans les champs Organization, Locality, AdministrativeArea et PostalCode.

DeliveryAddress1, DeliveryAddress2...DeliveryAddress12 [out]

utilisé pour spécifier les lignes individuelles contenues dans le champ DeliveryAddress.

Country [in]

utilisé pour fournir le nom ou le code du pays.

CountryName [out]

utilisé pour fournir le nom officiel du pays selon la norme ISO 3166.

ISO3166-2 [out]

utilisé pour fournir le code pays ISO 3166 à deux caractères.

ISO3166-3 [out]

utilisé pour fournir le code pays ISO 3166 à trois caractères.

ISO3166-N [out]

utilisé pour fournir le code pays ISO 3166 à trois caractères numériques.

SuperAdministrativeArea [in,out]

utilisé pour fournir le plus grand élément de données géographique d'un pays.

AdministrativeArea [in,out]

utilisé pour fournir l'élément de données géographiques le plus fréquent d'un pays. Par exemple, l'état pour les Etats-Unis et la province pour le Canada.

SubAdministrativeArea [in,out]

utilisé pour fournir l'élément de données géographique le plus petit d'un pays. Par exemple, County pour les Etats-Unis.

Locality [in,out]

utilisé pour fournir l'élément de données le plus fréquent regroupant la population dans un pays. Par exemple, City aux Etats-Unis et Municipality au Canada.

DependentLocality [in,out]

utilisé pour fournir l'élément de données le plus petit regroupant la population, selon le contenu du champ Locality. Par exemple, Neighborhood en Turquie.

DoubleDependentLocality [in,out]

utilisé pour fournir l'élément de données le plus petit regroupant la population, selon le contenu des champs Locality et DependentLocality. Par exemple, Village au Royaume-Uni.

Thoroughfare [in,out]

utilisé pour fournir l'élément de données le plus fréquent de voie ou de bloc dans un pays. Par exemple, Street aux Etats-Unis.

DependentThoroughfare [in,out]

utilisé pour fournir l'élément de données dépendant de voie ou de bloc dans un pays. Par exemple, Dependent Street au Royaume-Uni.

Building [in,out]

utilisé pour fournir le nom descriptif identifiant un emplacement individuel, si un tel nom existe

Premise [in,out]

utilisé pour fournir le code alphanumérique identifiant un emplacement individuel, si un tel code existe. Par exemple, le numéro de rue, en France.

SubBuilding [in,out]

utilisé pour fournir les identifiants secondaires pour un point de livraison particulier. Par exemple, "FLAT 1" ou "SUITE 212".

PostalCode [in,out]

utilisé pour fournir le code postal complet, pour un point de livraison particulier, si ces détails peuvent être déterminés.

PostalCodePrimary [out]

utilisé pour fournir le code postal primaire utilisé pour un pays particulier. Par exemple, Zip pour les Etats-Unis, Postcode pour le Canada et PINcode pour l'Inde.

PostalCodeSecondary [out]

utilisé pour fournir des informations secondaires sur le code postal, si utilisé pour un pays particulier, si de tels détails peuvent être déterminés et si les données de référence sont disponibles. Par exemple Zip Plus 4 pour les Etats-Unis.

Organization [in,out]

utilisé pour fournir le nom de l'entreprise associée à un point de livraison particulier, si un tel nom existe.

PostBox [out]

utilisé pour fournir la boîte postale pour un point de livraison particulier, si elle existe.

Unmatched [out]

utilisé pour lister les mots ne trouvant pas de correspondance dans un composant d'adresse particulier.

Latitude [out]

utilisé pour fournir la latitude WGS 84 en degrés décimaux.

Longitude [out]

utilisé pour fournir la longitude WGS 84 en degrés décimaux.

GeoAccuracy [out]

utilisé pour fournir le code GeoAccuracy. Pour plus d'informations, consultez Code GeoAccuracy.

GeoDistance [out]

utilisé pour fournir le rayon de précision en mètres, donnant une indication de la distance maximale probable entre le géocode donné et l'emplacement physique.

Code GeoAccuracy

Le code GeoAccuracy se compose des valeurs suivantes :

  • le statut de géocodage,

  • le niveau de géocodage.

Par exemple, le code P3 signifie :

  • P : un seul géocode est trouvé et correspond à l'adresse d'entrée.

  • 3 : le niveau de géocode est Thoroughfare (type de voie).

Les tableaux ci-dessous fournissent une description détaillée du statut et du niveau de géocodage.

Statut de géocodage

Description

P (Point)

un seul géocode est trouvé et correspond à l'adresse d'entrée.

I (Interpolé)

un géocode a pu être interpolé depuis l'emplacement de l'adresse d'entrée au sein d'une plage.

A (Moyenne, de l'anglais Average)

plusieurs géocodes candidats correspondent à l'adresse d'entrée. Une moyenne de ces candidats est retournée.

U (Impossible à géocoder, de l'anglais Unable to geocode)

Un géocode n'a pu être généré pour l'adresse d'entrée.

Niveau de géocodage

Description

5

point de livraison (boîte postale ou appartement).

4

site (site ou bâtiment).

3

type de voie.

2

localité.

1

zone administrative.

0

aucune.

Codes de vérification d'adresses dans le tLoqateAddressRow

Le composant tLoqateAddressRow écrit une colonne ACCURACYCODE en sortie. Cette colonne contient les codes de vérification pour les adresses traitées.

Le code de vérification se compose des valeurs suivantes :

Valeurs du code de vérification

Description

Statut de vérification

utilisé pour spécifier l'adresse postale complète du pays correspondant.

Niveau de correspondance de la vérification après traitement

utilisé pour spécifier les données d'entrée pour la ligne d'adresse du pays correspondant, divisées en lignes individuelles d'adresse.

Niveau de correspondance de la vérification avant traitement

utilisé pour spécifier l'adresse complète, y compris les retours à la ligne, sans les champs Organization, Locality, AdministrativeArea et PostalCode.

Statut de parsing (analyse)

utilisé pour spécifier les lignes individuelles contenues dans le champ DeliveryAddress.

Niveau de correspondance d'identification lexicale

utilisé pour fournir le nom ou le code du pays.

Niveau de correspondance d'identification du contexte

utilisé pour fournir le nom officiel du pays selon la norme ISO 3166.

Statut du code postal

utilisé pour fournir le code pays ISO 3166 à deux caractères.

Score de correspondance

utilisé pour fournir le code pays ISO 3166 à trois caractères.

Par exemple, le code de vérification V44-I44-P3-100 comprend :

  • Le statut de vérification = V (vérifié) : une correspondance complète a été trouvée entre l'adresse d'entrée et un enregistrement des données de référence disponibles.

  • Niveau de correspondance de la vérification après traitement = 4 (site) : le niveau de correspondance des données d'entrée par rapport aux données de référence disponibles une fois que toutes les modifications et les ajouts effectués durant le processus de vérification ont été pris en compte.

  • Niveau de correspondance de la vérification avant traitement = 4 (site) : le niveau de correspondance des données d'entrée par rapport aux données de référence disponibles avant tout ajout ou modification effectué(e) durant le processus de vérification.

  • Statut du parsing (analyse) = I (identifié et parsé) : tous les composants des données d'entrée ont pu être identifiés et placés dans des champs de sortie.

  • Niveau de correspondance de l'identification lexicale = 4 (site) : à l'aide d'une correspondance de modèle, une valeur numérique ou un mot a été identifié(e) comme numéro ou nom d'un site.

  • Niveau de correspondance d'identification du contexte = 4 (site) : à l'aide d'une forme moins précise de correspondance, une valeur numérique ou un mot a été identifié(e) comme numéro ou nom d'un site.

  • Statut du code postal = P3 (ajouté) : le code postal primaire pour le pays a été ajouté.

  • Score de correspondance = 100 (similarité parfaite) : les données d'entrée et leur correspondance la plus proche correspondent parfaitement.

Les sections suivantes expliquent de manière détaillée chaque segment du code de vérification.

Statut de vérification

Le statut de vérification peut être l'un des suivants :

Statut

Description

V (Vérifié)

L'adresse a été parsée et une correspondance exacte a été trouvée dans les données de référence pour tous les composants de l'adresse.

P (Partiellement vérifié)

Les données de référence contiennent plus de détails que les données d'entrée de l'adresse. L'adresse a été parsée et la plupart des composants de l'adresse ont été mis en correspondance avec les données de référence.

U (Non vérifié, de l'anglais Unverified)

Les données d'entrée n'ont pu être parsées. Les champs de sortie contiendront les données d'entrée.

A (Ambigu)

Plus d'un élément dans les données de référence correspond aux données d'entrée.

C (Conflit)

Les composants individuels d'adresse sont valides mais l'adresse n'est pas valide lors du regroupement des composants.

R (Annulé, de l'anglais Reverted)

L'adresse a été parsée et vérifiée, mais le niveau minimum acceptable de vérification n'a pas été atteint. Les champs de sortie contiendront les données d'entrée.

Niveau de correspondance de la vérification après traitement

Le niveau de correspondance de la vérification après traitement donne le niveau de correspondance des données d'entrée par rapport aux données de référence disponibles une fois que toutes les modifications et les ajouts effectués durant le processus de vérification ont été pris en compte.

Niveau de correspondance

Description

5

point de livraison (boîte postale ou appartement).

4

site (site ou bâtiment).

3

type de voie.

2

localité.

1

zone administrative.

0

aucune.

Niveau de correspondance de la vérification avant traitement

Le niveau de correspondance de la vérification avant traitement donne le niveau de correspondance des données d'entrée par rapport aux données de référence disponibles avant tout ajout ou modification effectué(e) durant le processus de vérification.

Niveau de correspondance

Description

5

point de livraison (boîte postale ou appartement).

4

site (site ou bâtiment).

3

type de voie.

2

localité.

1

zone administrative.

0

aucune.

Statut du parsing

Le statut du parsing peut être l'un des suivants :

  • I (identifié et parsé) : toutes les données d'entrées ont été identifiées et placées dans différents champs d'adresse.

  • U (impossible à parser, de l'anglais Unable to parse) : toutes les données d'entrées n'ont pas été identifiées et parsées.

Niveau de correspondance de l'identification lexicale

Le niveau de correspondance de l'identification lexicale permet de voir jusqu'à quel point les données d'entrée contiennent des formes reconnues, via l'utilisation :

  • d'une correspondance de modèle, par exemple une valeur numérique peut être le numéro d'un site et

  • d'une correspondance lexicale, par exemple rd peut être un type de voie Thoroughfare (road) et London peut être une Locality.

Niveau de correspondance

Description

5

point de livraison (boîte postale ou appartement).

4

site (site ou bâtiment).

3

type de voie.

2

localité.

1

zone administrative.

0

aucune.

Niveau de correspondance d'identification du contexte

Le niveau de correspondance d'identification du contexte permet de voir jusqu'à quel point les données d'entrée peuvent être reconnues selon le contexte dans lequel elles apparaissent.

Cette forme de mise en correspondance est la moins précise et se base sur l'identification d'un mot, par exemple un type de voie, Thoroughfare selon s'il est précédé par un site Premise et suivi par une localité Locality, ces derniers éléments étant identifiés par une correspondance par rapport aux données de référence ou au lexique.

Niveau de correspondance

Description

5

point de livraison (boîte postale ou appartement).

4

site (site ou bâtiment).

3

type de voie.

2

localité.

1

zone administrative.

0

aucune.

Statut du code postal

Le statut du code postal peut être l'une des valeurs suivantes :

Statut

Description

P8

Les champs PostalCodePrimary et PostalCodeSecondary sont vérifiés.

P7

Le champ PostalCodePrimary est vérifié et le champ PostalCodeSecondary est ajouté ou modifié.

P6

Le champ PostalCodePrimary est vérifié.

P5

Le champ PostalCodePrimary est vérifié et contient de légères modifications.

P4

Le champ PostalCodePrimary est vérifié et contient des modifications importantes.

P3

Le champ PostalCodePrimary est ajouté.

P2

Le champ PostalCodePrimary est identifié par le lexique.

P1

Le champ PostalCodePrimary est identifié par le contexte.

P0

Le champ PostalCodePrimary est vide.

Score de correspondance

La précision du score de correspondance montre le taux de similarité entre les données d'entrée et la correspondance la plus proche dans les données de référence, avec un pourcentage compris entre 0 et 100. 100 % signifie que la similarité est parfaite.

Statut du traitement dans le tLoqateAddressRow

Le composant tLoqateAddressRow écrit en sortie une colonne STATUS. Cette colonne contient le statut du traitement des adresses d'entrée, comme suit :

Statut

Description

psOK

le traitement s'est déroulé normalement. Le score doit être examiné afin de déterminer la précision des résultats.

psException

une exception est survenue durant le traitement des enregistrements d'entrée, généralement résultant de données d'entrée mal formées.

psServerUninitialized

le traitement n'a pu être terminé car le serveur n'a pas été initialisé.

psInvalidInputRecord

l'enregistrement d'entrée contient des données invalides. Cela est notamment lié à des données fournies dont l'encodage n'est pas UTF8/Unicode.

Scénario : Parser des adresses par rapport aux données de Loqate

Ce scénario décrit un Job à trois composants :

  • utilisant un composant tFixedFlowInput pour générer les données d'adresses à analyser,

  • utilisant un composant tLoqateAddressRow pour parser, standardiser et formater les adresses des Etats-Unis générées par le tFixedFlowInput,

  • utilisant un tFileOutputExcel pour écrire en sortie les adresses correctes et formatées dans la console.

Prérequis : Avant de pouvoir utiliser le composant tLoqateAddressRow, vous devez commander et télécharger l'API Loqate Local API et le Global Knowledge Repository sur le site http:// www.loqate.com/ (en anglais).

Le composant tLoqateAddressRow utilise la version Q4, 2012.

Construire le Job

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFixedFlowInput, un tLoqateAddressRow et un tFileOutputExcel.

  2. Reliez les composants à l'aide de liens Main.

Configurer le composant d'entrée

  1. Double-cliquez sur le tFixedFlowInput pour ouvrir sa vue Basic settings.

  2. Créez le schéma en cliquant sur le bouton Edit Schema.

    Dans la boîte de dialogue, cliquez sur le bouton [+] et ajoutez les colonnes qui contiendront les informations des adresses d'entrée, par exemple : address_input, COUNTRY et data_description.

  3. Cliquez sur OK.

  4. Dans le champ Number of rows, paramétrez le nombre de lignes à 1.

  5. Dans la zone Mode, sélectionnez l'option Use Inline Content (delimited file) et saisissez, dans les champs Row Separator et Field Separator, le séparateur de champs et le séparateur de lignes, respectivement.

  6. Dans la table Content, saisissez les données d'adresses que vous souhaitez analyser, par exemple :

    Boise Town Square  421 N Cole Rd   83704,,wrong data
    Boise Capitol 280 S Capitol Blvd  83702,us,both address coutry correct
    Federal Way  3563 South Federal Way    83705,US, both correct
    Salmon Creek In-Store (ALB) 14300 NE 20th Ave Ste.B-101  Vancouver WA 98686,US,both correct
    Battle Ground   2500 West Main Street,,no country;address miss(Battle Ground WA 98604 )
    Battle Ground   2500 West abcd Street,,no country address changed
    south southjkjkjkjkjkj,,wrong data

Configurer le composant tLoqateAddressRow

  1. Double-cliquez sur le tLoqateAddressRow pour afficher sa vue Basic settings.

  2. Cliquez sur le bouton Edit schema et définissez dans le schéma de sortie toutes les colonnes nécessaires afin de contenir les adresses formatées que vous souhaitez obtenir du tLoqateAddressRow.

    Deux colonnes de sortie sont en lecture seule : STATUS et ACCURACYCODE. La première retourne le statut des adresses d'entrée traitées. Pour plus d'informations concernant le statut du traitement, consultez Statut du traitement dans le tLoqateAddressRow. La seconde colonne en lecture seule retourne le code de vérification des adresses traitées. Pour plus d'informations concernant les valeurs dont se compose ce code et les implications de chaque segment, consultez Codes de vérification d'adresses dans le tLoqateAddressRow.

    Dans cet exemple, utiliser la colonne address-input du schéma de sortie permet d'écrire en sortie l'adresse d'entrée. Cela peut être utile pour comparer comment les éléments d'adresse ont été parsés et standardisés.

  3. Cliquez sur OK pour accepter la propagation des modifications.

  4. Dans la table Input Address :

    • ajoutez des lignes en cliquant sur le bouton [+],

    • dans la colonne Address Field, cliquez sur une ligne et sélectionnez dans la liste les champs, prédéfinis dans le composant, contenant l'adresse d'entrée, Address et Country dans cet exemple.

    • dans la colonne Input Column, cliquez sur une ligne et sélectionnez dans la liste du schéma d'entrée les colonnes contenant l'adresse d'entrée, address-input et COUNTRY dans cet exemple.

  5. Dans la table Output Address :

    • ajoutez des lignes en cliquant sur le bouton [+],

    • dans la colonne Address Field, cliquez sur une ligne et sélectionnez dans la liste les champs, prédéfinis dans le composant, contenant l'adresse de sortie.

      Le composant mappe les valeurs de ces champs vers les colonnes de sortie définies dans cette table.

      Le tLoqateAddressRow fournit une longue liste de champs individuels, car certains pays ont une structure d'adresses plus complexe que d'autres. Pour plus d'informations concernant les champs de sortie, consultez Champs d'adresses dans le tLoqateAddressRow.

    • dans la colonne Output Column, cliquez sur une ligne et sélectionnez dans la liste les colonnes qui contiendront les données de l'adresse standardisées en sortie.

  6. Dans le champ Loqate Data Path, configurez le chemin d'accès au dossier de données Loqate fourni par Loqate et installé localement.

Paramétrer un argument JVM et finaliser le Job

  1. Double-cliquez sur le composant tFileOutputExcel pour afficher sa vue Basic settings.

  2. Configurez le chemin d'accès, dans le champ File Name ainsi que le nom de la feuille, dans le champ Sheet name et cochez les cases Include header et Define all columns auto size.

  3. Cliquez sur l'onglet Run puis sur la vue Advanced settings.

  4. Cochez la case Use specific JVM arguments et cliquez sur New....

  5. Dans la fenêtre qui s'ouvre, configurez l'argument JVM suivant : -Djava.library.path=<path/to/libloqatejava.dll/folder/>.

    Dans cet argument, vous devez indiquer le dossier où est installée la bibliothèque Loqate, nommée libloqatejava.so sous Linux ou loqatejava.dll sous Windows.

    Sans le bon argument JVM configuré, l'erreur suivante est attendue : java.lang.Error: java.lang.UnsatisfiedLinkError.

  6. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

    Le composant tLoqateAddressRow lit les données des adresses d'entrée. Il parse, vérifie, nettoie, standardise les adresses et donne les résultats dans les lignes de sortie définies dans le schéma de sortie.

    Le tLoqateAddressRow met en correspondance les adresses d'entrée par rapport au fichier de données Loqate téléchargé localement.

    La colonne de sortie STATUS standard retourne le statut psOK pour toutes les lignes d'adresses. Cela signifie que le processus de vérification de toutes les lignes d'adresses peut s'effectuer normalement via le composant. Pour plus d'informations concernant le statut du processus, consultez Statut du traitement dans le tLoqateAddressRow.

    La colonne de sortie ACCURACYCODE standard retourne un code de vérification pour chacune des lignes d'adresse traitée. Par exemple, le premier code de vérification, V44-I45-P7-100, signifie :

    • Le statut de vérification = V (vérifié) : une correspondance complète a été trouvée entre l'adresse d'entrée et un enregistrement des données de référence disponibles.

    • Niveau de correspondance de la vérification après traitement = 4 (site) : le niveau de correspondance des données d'entrée par rapport aux données de référence disponibles une fois toutes les modifications et les ajouts effectués durant le processus de vérification ont été pris en compte.

    • Niveau de correspondance de la vérification avant traitement = 4 (site) : le niveau de correspondance des données d'entrée par rapport aux données de référence disponibles avant tout ajout ou modification effectué(e) durant le processus de vérification.

    • Statut du parsing (analyse) = I (identifié et parsé) : tous les composants des données d'entrée ont pu être identifiés et placés dans des champs de sortie.

    • Niveau de correspondance de l'identification lexicale = 4 (site) : à l'aide d'une correspondance de modèle, une valeur numérique ou un mot a été identifié(e) comme numéro ou nom d'un site.

    • Niveau de correspondance d'identification du contexte = 5 (point de livraison, boîte postale ou appartement) : une valeur numérique ou un mot a été identifié comme numéro de boîte postale ou comme nom d'appartement.

    • Statut du code postal = P7 (ajouté) : le code postal primaire du pays a été vérifié et un second code postal a été ajouté.

    • Score de correspondance = 100 (similarité parfaite) : les données d'entrée et leur correspondance la plus proche correspondent parfaitement.

    Pour plus d'informations concernant les valeurs dont se compose le code ainsi que les implications de chaque segment, consultez Codes de vérification d'adresses dans le tLoqateAddressRow.