tAddressRowCloud - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du Studio Talend si vous avez souscrit à l'un des produits Talend Platform.

Propriétés du tAddressRowCloud

Famille du composant

Data Quality

 

Fonction

Le composant tAddressRowCloud vérifie et formate les adresses internationales dans le Cloud en utilisant des services en ligne.

Objectif

Le tAddressRowCloud vous permet de parser des données d'adresses et d'obtenir des adresses formatées de manière rapide et précise sans avoir à installer de logiciel.

Les données d'adresses sont corrigées par rapport aux dernières données de référence en ligne provenant de plusieurs fournisseurs, notamment Loqate, MelissaData, Google ou QAS. Le tAddressRowCloud propose des alternatives pour les données d'adresses manquantes, telles que le pays ou le code postal et les adresses sont enrichies avec d'autres éléments comme la latitude et la longitude.

Avertissement

Chaque ligne de données a besoin d'un ou plusieurs appels de service Web du fournisseur. Le nombre de requêtes par ligne peut varier selon le fournisseur. Le quota dépend de la licence donnée par le fournisseur de service Web. Assurez-vous de ne pas exécuter le composant sur un ensemble de données excédant votre quota car vous aurez des messages d'erreur et les adresses ne seront pas corrigées.

Pour plus d'informations sur les conditions d'utilisation de l'API Google Places, consultez Terms of Service.

Basic settings

Schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Edit Schema

Cliquez sur le bouton [...] et définissez le schéma d'entrée et de sortie de données d'adresses.

Le schéma de sortie du composant tAddressRowCloud propose plusieurs colonnes d'adresses en lecture seule dont la colonne VerificationLevel qui fournit un statut de la vérification de l'adresse traitée. Les niveaux de vérification de cette colonne sont définis par Talend. Pour plus d'informations, consultez Niveaux de vérification dans le tAddressRowCloud.

Certaines colonnes de sortie peuvent aussi rester vides lors de l'exécution du Job selon le fournisseur d'adresses sélectionné dans les Basic settings du composant.

 

Address Provider

Sélectionnez dans la liste le fournisseur des données de référence par rapport auquel vous souhaitez valider et formater les adresses d'entrée.

La liste des fournisseurs d'adresses est constituée de Google, Loqate, QAS et MelissaData Address.

 

License/API key

Saisissez la clé de licence ou d'API fournie par le fournisseur d'adresses sélectionné dans la liste. Vous devez visiter le site du fournisseur, vous enregistrer et obtenir la clé de licence/d'API.

Lorsque vous choisissez Google comme fournisseur, le composant utilise l'API Google Places. Vous devez générer la clé depuis la console développeur de Google sur https://developers.google.com/console/help/new/ et définir la clé dans ce champ.

Loqate uniquement

Processing Mode

Cette option s'applique uniquement au fournisseur Loqate.

Dans la liste, sélectionnez le mode de validation d'adresses que vous souhaitez utiliser :

-Verify and Geocode (option sélectionnée par défaut) : avec ce mode, le composant standardise et corrige les adresses en les enrichissant avec des informations de latitude et de longitude.

Note

Utilisés ensemble, la vérification d'adresses et le géocodage coûtent des crédits supplémentaires. Pour plus d'informations, consultez Cloud Price Card (en anglais).

-Verify only : avec ce mode, le composant standardise et corrige les adresses sans les enrichir avec des informations de latitude et de longitude.

QAS uniquement

Country

Cette option s'applique uniquement au fournisseur QAS.

Sélectionnez dans la liste le pays correspondant à votre adresse d'entrée.

Lorsque vous sélectionnez QAS comme fournisseur, le composant utilise le service QAS Pro OnDemand. Pour plus d'informations concernant la vérification d'adresses par Experian, consultez la fiche produit à l'adresse suivante : https://www.edq.com/globalassets/product-sheets/address-verification.pdf (en anglais).

QAS uniquement 

QAS OnDemand username

Cette option s'applique uniquement au fournisseur QAS.

Saisissez le nom d'utilisateur que vous pouvez trouver dans la licence fournie par QAS.

Vous pouvez vérifier votre nom d'utilisateur depuis le portail QAS OnDemand à l'adresse suivante : https://sso.experianmarketingservices.com (en anglais).

QAS uniquement 

Password

Cette option s'applique uniquement au fournisseur QAS.

Saisissez le mot de passe généré que vous pouvez trouver dans la licence fournie par QAS.

Vous pouvez vérifier votre mot de passe depuis le portail QAS OnDemand à l'adresse suivante : https://sso.experianmarketingservices.com (en anglais).

 

Use security mode to connect

Cochez cette case pour vous connecter au Cloud de manière sécurisée. Cela peut légèrement réduire les performances.

Selon le fournisseur d'adresses choisi, cette case n'est pas toujours disponible.

 

Mapping

Address field : ajoutez des lignes à la table et sélectionnez dans une liste d'adresses prédéfinies les champs qui contiendront l'adresse d'entrée.

Cette liste d'adresses comprend les colonnes suivantes pour tous les fournisseurs d'adresses : Address, PostalCode, Locality, AdministrativeArea et Country.

Input Column : ajoutez des lignes à la table et sélectionnez dans la liste les colonnes contenant les adresses du schéma d'entrée. Le schéma d'entrée peut contenir une ou plusieurs colonne(s) et même contenir des colonnes ne représentant pas de données d'adresses.

 

Use Additional Output

Cette option est disponible uniquement pour le fournisseur QAS.

Cochez cette case et utilisez la table Output Mapping pour ajouter des colonnes d'adresses au schéma de sortie :

Address field : permet d'ajouter des lignes à la table et de sélectionner, dans la liste d'adresses prédéfinies, les champs des informations supplémentaires que vous souhaitez écrire en sortie.

Ces champs d'adresses prédéfinies varient selon le fournisseur sélectionné dans la liste Address Provider. Pour plus d'informations concernant les champs d'adresses supplémentaires, consultez le site Web de votre fournisseur.

Output Column : sélectionnez dans la liste les colonnes qui contiendront les informations des adresses supplémentaires de sortie. Vous devez d'abord ajouter ces colonnes supplémentaires au schéma de sortie du tAddressRowCloud via le bouton Edit Schema.

Le tAddressRowCloud mappe les valeurs des champs d'adresses vers les colonnes de sortie dans la colonne Output Column.

Si vous choisissez d'avoir une colonne de sortie dans la table Output Address ayant le même nom qu'une colonne d'entrée, la valeur de la colonne d'entrée est écrasée par la valeur donnée par le composant.

Advanced settings

Les champs dans cette vue varieront selon le fournisseur d'adresses sélectionné dans la vue Basic settings.

-Address Line Separator : définissez la chaîne de caractères séparant les composants d'adresse en sortie dans les champs d'adresse en sortie. Si vous gardez l'option par défaut Default dans ce champ, le composant utilisera un séparateur de ligne différent selon le fournisseur d'adresses sélectionné. Par exemple, il utilisera (<BR>) avec Loqate et ; avec MelissaData.

-Default Country : sélectionnez le nom du pays pour lequel le code ISO 3166-1 alpha-3 doit être utilisé lors du parsing des données et si aucun pays identifiable n'est trouvé dans l'enregistrement d'entrée.

-Forced Country : sélectionnez le nom du pays pour lequel le code ISO 3166-1 alpha-3 doit être utilisé pour tous les enregistrements d'entrée lors du parsing de données.

-Output Script : sélectionnez la langue de translittération de l'adresse de sortie.

La liste des scripts diffère selon le fournisseur d'adresses sélectionné.

Lorsque le fournisseur d'adresses est Loqate ou MelissaData :

Si vous gardez l'option par défaut Not set dans ce champ, le composant va vérifier les données d'entrée et décider d'utiliser Native ou Latin selon que la plus grande part des données d'entrée soit en Native ou en Latin.

Sélectionnez Latin pour encoder les résultats du parsing en Latin, c'est-à-dire en caractères occidentaux.

Sélectionnez Native/Match input pour encoder les résultats du parsing à l'aide du script du pays lorsque cela est possible.

Ci-dessous se trouve une liste des jeux de caractères (scripts) et des langues supportés par le script Native/Match input que le tAddressRowCloud peut translittérer :

Cyrl - Cyrillique (Russe),

Grek - Grec (Grèce)

Hebr - Hébreu (Israël),

Hani - Kanji (Japon),

Hans - Chinois simplifié (Chine),

Arab - Arabe (Emirats arabes unis),

Thai - Thaï (Thaïlande),

Hang - Hangeul (Corée du Sud).

-Minimum match score : spécifiez le score de correspondance minimum qu'un enregistrement doit atteindre pour ne pas annuler le parsing. La valeur par défaut est zéro. Les valeurs valides sont comprises entre 0 et 100.

Cette option est très utile lorsque vous souhaitez avoir, dans les champs de sortie, les données d'entrée, si un niveau donné de vérification (score de correspondance minimum) n'a pas été atteint.

-Minimum interval between two queries (milliseconds) : définissez en millisecondes la période minimum d'attente entre deux requêtes.

-Limit of retrying the same query in case it fails (times) : définissez combien de fois une même requête doit être relancée en cas d'échec.

-Interval between two retries of the same query (milliseconds) : définissez en millisecondes la période d'attente minimum entre deux essais d'une même requête.

-Delay before forcing the termination of the query executor (seconds) : définissez en secondes la période d'attente avant la fermeture forcée de l'exécuteur de requêtes.

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau des composants.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est un composant intermédiaire. Il requiert des composants d'entrée et de sortie.

Limitation

n/a

Niveaux de vérification dans le tAddressRowCloud

Le composant tAddressRowCloud écrit en sortie une colonne VerificationLevel. Cette colonne liste les niveaux de vérification d'adresses définis par Talend.

Les fournisseurs supportés dans le composant (Loqate, MelissaData, etc) ont différents niveaux de vérification, car ces fournisseurs utilisent différentes bases de données et différents algorithmes afin de vérifier les adresses. Les résultats de la vérification d'adresses des fournisseurs sont mappés vers les niveaux de vérification de Talend.

Le tableau ci-dessous décrit les niveaux de vérification en sortie du composant.

Niveaux de vérification

Description

Verified

Une correspondance complète est effectuée entre les données d'entrée et un enregistrement des données de référence disponibles.

Partially Verified

Une correspondance partielle est effectuée entre les données d'entrée et un enregistrement des données de référence disponibles.

Unverified

Impossible de vérifier l'adresse. Les champs de sortie vont contenir les données d'entrée.

Ambiguous

Plus d'une correspondance proche dans les données de référence a été trouvée.

Conflict

Plus d'une correspondance proche dans les données de référence a été trouvée avec des valeurs en conflit.

Reverted

L'enregistrement ne peut être vérifié avec un niveau minimum acceptable. Les champs de sortie vont contenir les données d'entrée.

Scénario : Parser les adresses par rapport aux données de référence dans le Cloud

Ce scénario décrit un Job à trois composants :

  • utilisant un composant tFixedFlowInput pour générer les données d'adresses à analyser.

  • utilisant un composant tAddressRowCloud pour parser, standardiser et formater les adresses dans le Cloud à travers l'API de validation d'adresses.

  • utilisant un composant tFileOutputExcel pour écrire en sortie les adresses correctes et formatées dans un fichier .xls.

Vous devez avoir une connexion internet pour pouvoir utiliser le tAddressRowCloud.

Construire le Job

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFixedFlowInput, un tAddressRowCloud et un tFileOutputExcel.

  2. Reliez les trois composants à l'aide de connexions Row > Main.

Configurer le composant d'entrée

  1. Double-cliquez sur le composant tFixedFlowInput afin d'afficher sa vue Basic settings.

  2. Créez le schéma en cliquant sur le bouton Edit Schema.

    Dans la boîte de dialogue qui s'ouvre, cliquez sur le bouton [+] et ajoutez les colonnes qui contiendront les informations des adresses d'entrée, par exemple : Address et Country.

  3. Cliquez sur OK.

    Les colonnes address et country sont créées dans la table Inline Table.

  4. Dans le champ Number of rows, définissez le nombre de lignes à 1.

  5. Dans la zone Mode, sélectionnez l'option Use Inline Table.

  6. Dans la table Content, saisissez les données d'adresses que vous souhaitez analyser, par exemple :

    "1 Chemin de l'Abbaye, Paris"
    "1 Rue de l'Abbaye, Paris"
    "1 Place de l'Abbaye basset, Paris"
    

    Définissez FRA comme pays pour les trois lignes d'adresses.

Parser les adresses avec Loqate

Configurer le schéma et définir le mapping des adresses

  1. Double-cliquez sur le tAddressRowCloud pour afficher sa vue Basic settings et définir les propriétés du composant.

  2. Si nécessaire, cliquez sur le bouton Sync columns afin de récupérer le schéma défini dans le composant de sortie.

  3. Cliquez sur le bouton Edit schema pour ouvrir la boîte de dialogue du schéma.

    Le composant tAddressRowCloud propose plusieurs colonnes d'adresses prédéfinies, en lecture seule, comme le montre la capture d'écran ci-dessous.

    La colonne STATUS retourne le statut du traitement des adresses d'entrée. Pour plus d'informations concernant le statut des traitements, consultez Statut du traitement dans le tLoqateAddressRow.

    La colonne AddressVerificationCode retourne le code de vérification pour les adresses traitées. Pour plus d'informations concernant les valeurs dont se compose ce code et les implications de chaque segment, consultez Codes de vérification d'adresses dans le tLoqateAddressRow.

  4. Déplacez une ou plusieurs colonne(s) d'entrée dans le schéma de sortie selon vos besoins. Cliquez sur OK pour accepter les changements et les propager.

    Vous pouvez également ajouter des colonnes directement dans le schéma de sortie, afin de récupérer des informations supplémentaires sur les adresses, depuis le référentiel Loqate.

  5. Sélectionnez dans la liste Address Provider le fournisseur des données de référence par rapport auquel vous souhaitez valider et formater les adresses d'entrée, Loqate dans cet exemple.

  6. Cochez la case Use security mode to connect pour vous connecter au référentiel de votre fournisseur de manière sécurisée.

    Cela peut avoir un léger impact sur les performances.

  7. Dans le champ License/API key, saisissez la clé de licence fournie par Loqate.

  8. Dans la liste Processing Mode, sélectionnez :

    Option

    Afin de...

    Verify and Geocode (option sélectionnée par défaut)

    standardiser et corriger les adresses et de les enrichir avec des informations latitude et longitude.

    Note

    Utilisés ensemble, la vérification d'adresses et le géocodage coûtent des crédits supplémentaires. Pour plus d'informations, consultez Cloud Price Card (en anglais).

    Verify only

    standardiser et corriger les adresses sans les enrichir avec des informations de latitude et de longitude.

  9. Dans la table Mapping :

    • utilisez le bouton [+] pour ajouter des lignes à la table.

    • cliquez dans la colonne Address Field et sélectionnez dans la liste prédéfinie du composant les champs qui contiennent l'adresse d'entrée : Address et Country dans cet exemple.

      Le composant mappera les valeurs de ces champs vers les colonnes d'entrée définies dans cette table.

      Le composant tAddressRowCloud fournit une liste de champs individuels car certains pays ont des structures d'adresses plus complexes que d'autres.

    • cliquez dans la colonne Input Column et sélectionnez dans la liste des schémas d'entrée les colonnes qui contiennent l'adresse d'entrée : address et country dans cet exemple.

Définir les champs d'adresses supplémentaires

  1. Si nécessaire, cochez la case Use Additional Output afin de récupérer les informations relatives aux adresses supplémentaires du référentiel de votre fournisseur.

  2. Cliquez sur le bouton Edit schema pour ouvrir la boîte de dialogue du schéma et ajouter au schéma de sortie les colonnes qui contiendront les informations supplémentaires relatives aux adresses. Ajoutez les colonnes all_info et Geo_info dans cet exemple.

  3. Dans la table Output Mapping :

    • utilisez le bouton [+] pour ajouter des lignes à la table.

    • cliquez dans la colonne Address Field et sélectionnez dans la liste prédéfinie les champs d'adresses supplémentaires à ajouter au schéma de sortie.

    • cliquez dans la colonne Output Column et sélectionnez dans le schéma du tAddressRowCloud les colonnes qui contiendront les informations d'adresses supplémentaires.

    Le composant mappe les valeurs des champs d'adresses dans le référentiel Loqate aux colonnes de sortie définies dans la table.

  4. Configurez les paramètres dans la vue Advanced settings selon vos besoins.

    Les paramètres par défaut ne sont pas modifiés dans cet exemple.

Configurer le composant de sortie et exécuter le Job

  1. Double-cliquez sur le composant tFileOutputExcel pour afficher sa vue Basic settings et définir les propriétés du composant.

  2. Définissez le nom du fichier de destination ainsi que le nom de la feuille, puis cochez la case Define all columns auto size.

  3. Enregistrez votre Job et appuyez sur F6 pour l'exécuter.

    Le composant tAddressRowCloud transfère les données dans le Cloud, récupère les données corrigées et écrit le résultat dans le fichier de sortie.

  4. Cliquez-droit sur le composant de sortie et sélectionnez Data Viewer pour afficher les données des adresses formatées.

    Le composant tAddressRowCloud fait correspondre les données des adresses d'entrée aux données du référentiel Loqate.

    Les colonnes all_info et Geo_info récupèrent les informations des adresses supplémentaires des colonnes Raw_Response et GeoAccuracy, respectivement, dans le référentiel Loqate. La colonne Raw_Response vous fournit toutes les informations d'adresses du référentiel de votre fournisseur sans les formater. Si vous souhaitez que les informations soient plus lisibles, vous devez les parser avec JSON ou XML.

    La colonne de sortie STATUS retourne le statut OK pour toutes les lignes d'adresses. Cela signifie que le processus de vérification de toutes les lignes d'adresses peut s'effectuer normalement via le composant. Pour plus d'informations concernant le statut du processus, consultez Statut du traitement dans le tLoqateAddressRow.

    La colonne de sortie VerificationLevel fournit un statut de vérification des adresses traitées. Pour plus d'informations, consultez Statut de vérification.

    La colonne de sortie AddressVerificationCode retourne un code de vérification pour chacune des lignes d'adresse traitée. Par exemple, le premier code de vérification, V44-I45-P3-100, signifie :

    • Le statut de vérification = V (vérifié) : une correspondance complète a été trouvée entre l'adresse d'entrée et un enregistrement des données de référence disponibles.

    • Niveau de correspondance de la vérification après traitement = 4 (site) : le niveau de correspondance des données d'entrée par rapport aux données de référence disponibles une fois toutes les modifications et les ajouts effectués durant le processus de vérification ont été pris en compte.

    • Niveau de correspondance de la vérification avant traitement = 4 (site) : le niveau de correspondance des données d'entrée par rapport aux données de référence disponibles avant tout ajout ou modification effectué(e) durant le processus de vérification.

    • Statut du parsing (analyse) = I (identifié et parsé) : tous les composants des données d'entrée ont pu être identifiés et placés dans des champs de sortie.

    • Niveau de correspondance de l'identification lexicale = 4 (site) : à l'aide d'une correspondance de modèle, une valeur numérique ou un mot a été identifié(e) comme numéro ou nom d'un site.

    • Niveau de correspondance d'identification du contexte = 5 (point de livraison, boîte postale ou appartement) : une valeur numérique ou un mot a été identifié comme numéro de boîte postale ou comme nom d'appartement.

    • Statut du code postal = P3 (ajouté) : le code postal primaire du pays a été ajouté.

    • Correspondance = 100 (similarité parfaite) : les données d'entrée et leur correspondance la plus proche correspondent parfaitement.

    Pour plus d'informations concernant les valeurs dont se compose ce code et les implications de chaque segment, consultez Codes de vérification d'adresses dans le tLoqateAddressRow.

Parser des adresses par rapport aux données de MelissaData

Vous pouvez exécuter le Job de Scénario : Parser les adresses par rapport aux données de référence dans le Cloud par rapport aux données du référentiel MelissaData en procédant de la manière suivante :

  1. Dans la vue Basic settings du tFixedFlowInput, créez le schéma en cliquant sur le bouton Edit schema.

    Dans la boîte de dialogue qui s'ouvre, cliquez sur le bouton [+] et ajoutez une colonne qui contiendra les informations des adresses d'entrée, par exemple : address.

  2. Cliquez sur OK.

    Une colonne address est créée dans la table Inline Table

  3. Dans la table Inline Table, saisissez les données d'adresses que vous souhaitez analyser, par exemple :

    "1211 AVENUE OF AMERICAS FL 8 10036 NEW YORK USA"
    "B69 2lt 9kings   United Kingdom ave"
    "1729号 黄兴路 China, 200433"
    "15 Rue Nelaton   Paris PARIS 92800 France"
    "1211 AVENUE OF AMERICAS FL 8 10036 NEW YORK"
    
  4. Dans l'onglet Basic settings du tAddressRowCloud, sélectionnez MelissaData dans la liste Address Provider.

  5. Dans le champ License key/KPI key, saisissez la clé de licence fournie par MelissaData.

  6. Dans la table Mapping, cliquez sur le bouton [+] pour ajouter une ligne, puis sélectionnez Address.

    Le composant mappera les valeurs de ce champ vers la colonne d'entrée définie dans cette table.

  7. Si nécessaire, cochez la case Use Additional Output et utilisez la table Output Mapping pour récupérer les informations supplémentaires des adresses du référentiel de votre fournisseur.

    Pour plus d'informations, consultez Définir les champs d'adresses supplémentaires.

  8. Ne modifiez pas les paramètres dans la vue Advanced settings.

  9. Enregistrez votre Job et appuyez sur F6 pour l'exécuter.

    Le composant tAddressRowCloud transfère les données dans le Cloud, récupère les données corrigées et écrit le résultat dans le fichier de sortie.

  10. Cliquez-droit sur le composant de sortie et sélectionnez Data Viewer pour afficher les données des adresses formatées.

    Le tAddressRowCloud fait correspondre les données des adresses d'entrée aux données du référentiel MelissaData et écrit les adresses formatées dans le fichier de sortie.

    La colonne de sortie AddressVerificationCode retourne un code de vérification pour chacune des lignes d'adresse traitée. Ces codes sont écrits dans des listes délimitées par des virgules. Chaque code est composé de deux lettres suivies de deux chiffres. Ces codes indiquent différents statuts et erreurs. Par exemple, le code AC02 signifie que le nom d'état est corrigé selon la combinaison du nom de la ville et du code postal.

    Pour une liste complète de la signification des codes de résultat et pour plus d'informations concernant toutes les colonnes de sortie, consultez le Guide Address Object Reference Guide que vous pouvez télécharger depuis le Centre de Support de MelissaData sur http://www.melissadata.com/.

    La colonne de sortie VerificationLevel fournit un statut de vérification des adresses traitées. Pour plus d'informations, consultez Niveaux de vérification dans le tAddressRowCloud.

Parser des adresses par rapport aux données de Google

Vous pouvez exécuter le Job de Scénario : Parser les adresses par rapport aux données de référence dans le Cloud par rapport aux données de l'API Google Places en procédant de la manière suivante :

  1. Dans la vue Basic settings du tFixedFlowInput, créez le schéma en cliquant sur le bouton Edit Schema.

    Dans la boîte de dialogue qui s'ouvre, cliquez sur le bouton [+] et ajoutez une colonne qui contiendra les informations dans les données d'adresses, dans cet exemple : address.

  2. Cliquez sur OK.

    Une colonne address est créée dans la table Inline Table.

  3. Dans la table Inline Table, saisissez les données d'adresses que vous souhaitez analyser, par exemple :

    "1211 AVENUE OF AMERICAS FL 8 10036 NEW YORK USA"
    "B69 2lt 9kings   United Kingdom ave"
    "1729号 黄兴路 China, 200433"
    "15 Rue Nelaton   Paris PARIS 92800 France"
    "1211 AVENUE OF AMERICAS FL 8 10036 NEW YORK"
    "1 Rue de l'Abbaye, Paris"
    "1 Chemin de l'Abbaye, Paris"
    "1 Place de l'Abbaye basset, Paris"
    "8000 Cummings Hall,Hanover,New Hampshire,03755,"
    
  4. Dans la vue Basic settings du tAddressRowCloud, sélectionnez Google dans la liste Address Provider.

  5. Dans le champ License/API key, saisissez la clé de l'API générée depuis la console Google Developer Console à l'adresse suivante https://developers.google.com/console/help/new/.

  6. Dans la table Mapping, cliquez sur le bouton [+] pour ajouter une ligne, puis sélectionnez Address.

    Address est le seul champ disponible lorsque Google est le fournisseur d'adresses. Le composant mappera les valeurs de ce champ vers la colonne d'entrée définie dans cette table.

  7. Si nécessaire, cochez la case Use Additional Output et utilisez la table Output Mapping pour récupérer les informations supplémentaires des adresses du référentiel de votre fournisseur.

    Pour plus d'informations, consultez Définir les champs d'adresses supplémentaires.

  8. Dans la vue Advanced settings, définissez Output Script en FRENCH et laissez les autres paramètres inchangés.

  9. Enregistrez votre Job et appuyez sur F6 pour l'exécuter.

    Le composant tAddressRowCloud transfère les données dans le Cloud, récupère les données corrigées et écrit le résultat dans le fichier de sortie.

  10. Cliquez-droit sur le composant de sortie et sélectionnez Data Viewer pour afficher les données des adresses formatées.

    Le tAddressRowCloud fait correspondre les données des adresses d'entrée aux données de l'API Google Places et écrit les adresses formatées dans le fichier de sortie.

    La colonne de sortie VerificationLevel fournit un statut de vérification des adresses traitées. Pour plus d'informations, consultez Niveaux de vérification dans le tAddressRowCloud.

Parser des adresses par rapport à QAS

Vous pouvez exécuter le Job de Scénario : Parser les adresses par rapport aux données de référence dans le Cloud à l'aide du service QAS Pro OnDemand et vérifier la précision et l'exhaustivité des adresses.

  1. Dans l'onglet Basic settings du tFixedFlowInput, créez le schéma en cliquant sur le bouton Edit Schema.

    Dans la boîte de dialogue ouverte, cliquez sur le bouton [+] et ajoutez une colonne qui contiendra les informations de l'adresse d'entrée, dans cet exemple : address.

  2. Cliquez sur OK.

    Une colonne address est créée dans la table Inline Table.

  3. Dans la table Inline Table, saisissez les données d'adresses que vous souhaitez analyser, par exemple :

    "1 nonsense st, nowhereville, SC,11111"
    "14 elmwood,rome,ga,30161"
    "300 n quincy pl, charlestown,MA,02129"
    "reba st,pelion,SC,29123"
    "1445 montebello st,montebello,90640"
    "43400 gadsden ave,lancaster,ca,93534"
    "po box 123,san francisco,ca,94104"
    "43400 gadsden ave apt 3,lancaster,ca,93534"
    
  4. Dans l'onglet Basic settings du tAddressRowCloud, sélectionnez QAS dans la liste Address Provider.

  5. Dans la liste Country, sélectionnez le pays correspondant à votre adresse d'entrée, United States dans cet exemple.

  6. Dans les champs QAS OnDemand username et password, saisissez respectivement votre nom d'utilisateur et votre mot de passe, que vous pouvez trouver dans la licence fournie par QAS.

  7. Dans la table Mapping, cliquez sur le bouton [+] pour ajouter une ligne et sélectionnez Address.

    Le composant mappe les valeurs de ce champ dans la colonne d'entrée définie dans cette table.

  8. Laissez les paramètres de l'onglet Advanced settings tels qu'ils sont.

  9. Sauvegardez votre Job et appuyez sur F6 pour l'exécuter.

    Le composant tAddressRowCloud charge des données dans le Cloud, valide et récupère les données corrigées et écrit les résultats dans un fichier de sortie.

  10. Cliquez-droit sur le composant de sortie et sélectionnez Data Viewer pour afficher les données des adresses formatées.

    Le tAddressRowCloud valide les données des adresses d'entrée par rapport à QAS Pro OnDemand et écrit les adresses formatées dans le fichier de sortie.

    La colonne de sortie VerificationLevel vous fournit un statut de vérification des adresses traitées. Pour plus d'informations, consultez Niveaux de vérification dans le tAddressRowCloud.