tBatchAddressRowCloud - 6.3

Composants Talend Guide de référence

EnrichVersion
6.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Avertissement

Ce composant est disponible dans la Palette du Studio Talend si vous avez souscrit à l'un des produits Talend Platform.

Fonction

Le composant tBatchAddressRowCloud divise des adresses provenant de flux d'entrée en différents fichiers (batches), vérifie et formate les adresses dans chaque fichier à l'aide de services batch en ligne.

Objectif

Le tBatchAddressRowCloud vous permet d'utiliser le traitement batch afin de parser les données d'adresses et obtenir rapidement des adresses formatées, précises et sans devoir installer de logiciel.

Les données d'adresse sont corrigées par rapport aux dernières données de référence en ligne des fournisseurs supportant des services batch, notamment Loqate et MelissaData. Le tBatchAddressRowCloud propose des alternatives aux données manquantes des adresses, comme le pays ou le code postal. Les adresses peuvent être enrichies avec d'autres éléments, notamment la latitude et la longitude.

L'avantage de ce composant par rapport au tAddressRowCloud est un gain de performance lors du traitement de grands volumes de données.

Avertissement

Le quota et les tarifs dépendent de la licence fournie par le fournisseur du service Web. Consultez le site Web des fournisseurs pour plus d'informations.

Propriétés du tBatchAddressRowCloud

Famille du composant

Data Quality

 

Basic settings

Schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Edit Schema

Cliquez sur le bouton [...] et définissez le schéma d'entrée et de sortie de données d'adresses.

Le schéma de sortie du composant tBatchAddressRowCloud propose plusieurs colonnes d'adresses en lecture seule dont la colonne VerificationLevel qui fournit un statut de la vérification de l'adresse traitée. Les niveaux de vérification de cette colonne sont définis par Talend. Pour plus d'informations, consultez Niveaux de vérification dans le tAddressRowCloud.

Certaines colonnes de sortie peuvent aussi rester vides lors de l'exécution du Job selon le fournisseur d'adresses sélectionné dans les Basic settings du composant.

 

Address Provider

Sélectionnez dans la liste le fournisseur des données de référence par rapport auquel vous souhaitez valider et formater les adresses d'entrée.

La liste des fournisseurs d'adresses est constituée de Google, Loqate, QAS et MelissaData Address.

 

Default Country

Sélectionnez le nom de pays pour lequel le code ISO 3166-1 alpha-3 code doit être utilisé lorsque vous parsez les données et qu'aucun pays identifiable n'est trouvé dans un enregistrement d'entrée.

 

License/API key

Saisissez la clé de licence ou d'API fournie par le fournisseur d'adresses sélectionné dans la liste.

Vous devez visiter le site du fournisseur, vous enregistrer et obtenir la clé de licence/d'API.

Loqate uniquement

Batch job name

Saisissez, entre guillemets, un nom pour les fichiers batch générés sur le serveur de Loqate. Ces fichiers contiennent le résultat du traitement batch.

Loqate uniquement

Number of rows in each batch file

Saisissez le nombre d'enregistrements d'adresses à grouper dans chaque fichier batch.

Loqate uniquement

Loqate website login

Saisissez votre identifiant, fourni par Loqate.

Loqate uniquement

Loqate website password

Saisissez le mot de passe fourni par Loqate.

Loqate uniquement

Processing Mode

Cette option s'applique uniquement au fournisseur Loqate.

Sélectionnez dans la liste le mode de validation d'adresses que vous souhaitez utiliser :

-Verify and Geocode (défaut) : avec ce mode, le composant standardise, corrige les adresses et les enrichit avec des informations de latitude et longitude.

Note

Combiner la vérification d'adresses et le géocodage vous coûtera des crédits supplémentaires. Pour plus d'informations, consultez Cloud Price Card (en anglais).

-Verify only : avec ce mode, le composant standardise et corrige les adresses sans les enrichir avec les informations de latitude et longitude.

 

Input Mapping

Address field : ajoutez des lignes à la table et sélectionnez dans la liste des adresses prédéfinies les champs qui contiendront les adresses d'entrée.

Le tBatchAddressRowCloud fournit une longue liste de champs d'adresses car certains pays ont des structures d'adresses plus complexes que d'autres. Pour plus d'informations concernant les champs d'entrée, consultez Champs d'adresses dans le tLoqateAddressRow.

Input Column : ajoutez des lignes à la table et sélectionnez dans la liste les colonnes contenant les adresses d'entrée. Le schéma d'entrée peut avoir une ou plusieurs colonnes et avoir des colonnes ne représentant pas des données d'adresses.

 

Use Additional Output

Cochez cette case et utilisez la table Output Mapping pour ajouter des colonnes d'adresses au schéma de sortie :

Address field : permet d'ajouter des lignes à la table et de sélectionner, dans la liste d'adresses prédéfinies, les champs des informations supplémentaires que vous souhaitez écrire en sortie.

Ces champs d'adresses prédéfinies varient selon le fournisseur sélectionné dans la liste Address Provider. Pour plus d'informations concernant les champs d'adresses supplémentaires, consultez le site Web de votre fournisseur.

Output Column : sélectionnez dans la liste les colonnes qui contiendront les informations des adresses supplémentaires de sortie. Vous devez d'abord ajouter ces colonnes supplémentaires au schéma de sortie du tBatchAddressRowCloud via le bouton Edit Schema.

Le tBatchAddressRowCloud mappe les valeurs des champs d'adresses vers les colonnes le sortie dans la colonne Output Column.

Si vous choisissez d'avoir une colonne de sortie dans la table Output Address ayant le même nom qu'une colonne d'entrée, la valeur de la colonne d'entrée est écrasée par la valeur donnée par le composant.

Advanced settings

Les champs dans cette vue varieront selon le fournisseur d'adresses sélectionné dans la vue Basic settings.

-Address Line Separator : définissez la chaîne de caractères séparant les composants d'adresse en sortie dans les champs d'adresse en sortie.

Si vous gardez l'option par défaut Default dans ce champ, le composant utilisera un séparateur de ligne différent selon le fournisseur d'adresses sélectionné. Par exemple, il utilisera (<BR>) avec Loqate et ; avec MelissaData.

-Forced Country : sélectionnez le nom du pays pour lequel le code ISO 3166-1 alpha-3 doit être utilisé pour tous les enregistrements d'entrée lors du parsing de données.

-Output Script : sélectionnez la langue de translittération de l'adresse de sortie.

La liste des scripts diffère selon le fournisseur d'adresses sélectionné.

Lorsque le fournisseur d'adresses est Loqate ou MelissaData :

Si vous gardez l'option par défaut Not set dans ce champ, le composant va vérifier les données d'entrée et décider d'utiliser Native ou Latin selon que la plus grande part des données d'entrée soit en Native ou en Latin.

Sélectionnez Latin pour encoder les résultats du parsing en Latin, c'est-à-dire en caractères occidentaux.

Sélectionnez Native/Match input pour encoder les résultats du parsing à l'aide du script du pays lorsque cela est possible.

Ci-dessous se trouve une liste des jeux de caractères (scripts) et des langues supportés par le script Native/Match input que le tBatchAddressRowCloud peut translittérer :

Cyrl - Cyrillique (Russe),

Grek - Grec (Grèce)

Hebr - Hébreu (Israël),

Hani - Kanji (Japon),

Hans - Chinois simplifié (Chine),

Arab - Arabe (Emirats arabes unis),

Thai - Thaï (Thaïlande),

Hang - Hangeul (Corée du Sud).

-Minimum match score : spécifiez le score de correspondance minimum qu'un enregistrement doit atteindre pour ne pas annuler le parsing. La valeur par défaut est zéro. Les valeurs valides sont comprises entre 0 et 100.

Cette option est très utile lorsque vous souhaitez avoir, dans les champs de sortie, les données d'entrée, si un niveau donné de vérification (score de correspondance minimum) n'a pas été atteint.

-Minimum interval between two queries (milliseconds) : définissez en millisecondes la période minimum d'attente entre deux requêtes.

-Limit of retrying the same query in case it fails (times) : définissez combien de fois une même requête doit être relancée en cas d'échec.

-Interval between two retries of the same query (milliseconds) : définissez en millisecondes la période d'attente minimum entre deux essais d'une même requête.

-Delay before forcing the termination of the query executor (seconds) : définissez en secondes la période d'attente avant la fermeture forcée de l'exécuteur de requêtes.

Loqate uniquement

Use mockup mode (no credit consumption)

Avant de pouvoir utiliser cette option, vous devez exécuter votre Job au moins une fois afin de créer des fichiers batch sur le serveur de Loqate.

Cette option sert uniquement au test ou au développement. Vous ne serez pas facturés pour le traitement batch si vous choisissez d'exécuter le Job avec cette option.

Cochez cette case afin de simuler l'exécution et les réponses du serveur de Loqate en utilisant en sortie un fichier batch ayant été précédemment traité et sauvegardé sur le serveur.

-Batch ID : configurez l'identifiant du fichier batch à utiliser comme entrée dans votre Job.

Vous pouvez obtenir l'identifiant du fichier si vous connectez à Everything Location et accédez au serveur Loqate à l'adresse Online Batch Cleansing (en anglais).

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau des composants.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est un composant intermédiaire et nécessite un flux d'entrée et un flux de sortie.

Limitation

n/a

Scénario : Parser des adresses par rapport à des données de référence dans le Cloud, à l'aide du traitement batch

Ce scénario décrit un Job utilisant :

  • un composant tFixedFlowInput pour générer les données d'adresses à analyser,

  • un tBatchAddressRowCloud pour parser, standardiser et formater les adresses dans le Cloud via l'API de validation d'adresses,

  • un tFileOutputExcel pour écrire en sortie les adresses correctement formatées dans un fichier .xls.

Vous devez disposer d'une connexion à Internet pour utiliser le tBatchAddressRowCloud.

Construire le Job

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFixedFlowInput, un tBatchAddressRowCloud et un tFileOutputExcel.

  2. Reliez les trois composants à l'aide de liens Main.

Configurer le composant d'entrée

  1. Double-cliquez sur le tFixedFlowInput pour ouvrir sa vue Basic settings.

  2. Créez le schéma via le bouton Edit Schema.

    Dans la boîte de dialogue qui s'ouvre, cliquez sur le bouton [+] pour ajouter les colonnes qui contiendront les informations de l'adresse d'entrée. Dans cet exemple, ajoutez ID, Organization, huit colonnes d'adresse Address1 à Address8, Locality, AdministrativeArea, PostalCode et Country.

  3. Cliquez sur OK.

  4. Dans le champ Number of rows, saisissez 1.

  5. Dans la zone Mode, sélectionnez l'option Use Inline Content.

  6. Dans la table Content, saisissez les données à analyser, par exemple :

    1000		23 girdwood road								london		sw18	GBR
    1001		1111 bayhill drive ste 290	san bruno								ca		USA
    1002		23 girdwood road								london		sw18	GBR
    1003		1111 bayhill drive ste 290	san bruno								ca		USA
    1004		23 girdwood road								london		sw18	GBR
    1005		1111 bayhill drive ste 290	san bruno								ca		USA
    1006		23 girdwood road								london		sw18	GBR
    1007		1111 bayhill drive ste 290	san bruno								ca		USA
    1008		23 girdwood road								london		sw18	GBR
    1009		1111 bayhill drive ste 290	san bruno								ca		USA
    1010		23 girdwood road								london		sw18	GBR
    ...

Parser des adresses via Loqate

Configurer le schéma et sélectionner un fournisseur d'adresses

  1. Double-cliquez sur le tBatchAddressRowCloud pour afficher sa vue Basic settings.

  2. Si nécessaire, cliquez sur le bouton Sync columns pour récupérer le schéma défini dans le composant d'entrée.

  3. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la fenêtre du schéma.

    Le schéma du tBatchAddressRowCloud contient plusieurs colonnes d'adresses prédéfinies, en lecture seule, comme dans la capture d'écran.

    La colonne STATUS retourne le statut du traitement des adresses d'entrée. Pour plus d'informations concernant les statuts du traitement, consultez Statut du traitement dans le tLoqateAddressRow.

    La colonne AddressVerificationCode retourne le code de vérification pour l'adresse traitée. Pour plus d'informations concernant les valeurs dont se compose le code ainsi que les implications de chaque segment, consultez Codes de vérification d'adresses dans le tLoqateAddressRow.

    La colonne de sortie VerificationLevel fournit un statut de vérification des adresses traitées. Pour plus d'informations, consultez Niveaux de vérification dans le tAddressRowCloud.

  4. Déplacez l'une des colonnes d'entrée dans le schéma de sortie si vous souhaitez l'afficher dans les résultats de vérification, cliquez sur OK et acceptez la propagation des modifications.

    Vous pouvez également ajouter des colonnes directement dans le schéma de sortie afin de récupérer des informations supplémentaires sur les adresses provenant du référentiel du fournisseur.

  5. Sélectionnez dans la liste Address Provider le fournisseur des données de référence par rapport auxquelles valider et formater les adresses d'entrée, Loqate dans cet exemple.

    Vous pouvez également valider des adresses par rapport au service en ligne MelissaData.

  6. Dans le champ License/API key, saisissez la clé de licence fournie par Loqate.

  7. Dans le champ Batch job name, saisissez entre guillemets le nom de votre choix à donner aux fichiers batch qui seront générés et sauvegardés sur le serveur Loqate.

    Configurez le nombre d'enregistrements d'adresses à grouper dans chaque fichier batch, dans le champ Number of rows in each batch file.

  8. Saisissez l'identifiant et le mot de passe fournis par Loqate, respectivement dans les champs Loqate website login et Loqate website password.

  9. Dans la liste Processing Mode, sélectionnez :

    Option

    Pour...

    Verify and Geocode (sélectionnée par défaut)

    standardiser et corriger les adresses et les enrichir avec des informations relatives à la latitude et la longitude.

    Utilisés ensemble, la vérification d'adresses et le géocodage coûtent des crédits supplémentaires. Pour plus d'informations, consultez Cloud Price Card (en anglais).

    Verify only

    standardiser et corriger les adresses sans les enrichir avec des informations relatives à la latitude et la longitude.

Définir le mapping et configurer les paramètres avancés

  1. Dans la table Input Mapping table :

    • utilisez le bouton [+] pour ajouter des lignes à la table.

    • Cliquez dans la colonne Address Field et sélectionnez dans la liste prédéfinie les champs contenant l'adresse d'entrée, Address dans cet exemple.

      Le composant mappe les valeurs de ces champs aux colonnes d'entrée configurées dans la table.

      Le tBatchAddressRowCloud fournit une liste de champs individuels, car les structures d'adresses de certains pays sont plus complexes que d'autres.

    • Cliquez dans la colonne Input Column et sélectionnez dans la liste du schéma d'entrée les colonnes contenant l'adresse d'entrée à parser, Address1 dans cet exemple.

  2. Si nécessaire, cochez la case Use Additional Output et définissez dans la table les champs supplémentaires des adresses que vous souhaitez récupérer du référentiel du fournisseur et ajouter aux résultats du parsing. Pour un exemple d'utilisation de cette table, consultez Définir les champs d'adresses supplémentaires.

    La colonne Address field contenant les champs d'adresses prédéfinis qui varient selon le fournisseur sélectionné. La colonne Output Column contient les champs que vous souhaitez utiliser pour écrire en sortie les informations supplémentaires. Vous devez d'abord ajouter ces colonnes supplémentaires au schéma du composant via le bouton Edit Schema.

  3. Cliquez sur l'onglet Advanced settings et configurez les paramètres selon vos besoins.

    Dans cet exemple :

    • Cochez la case Use mockup mode (no credit consumption).

      Cette case vous permet de simuler une exécution et des réponses du serveur Loqate en utilisant en entrée un fichier batch ayant déjà été traité par le Job et sauvegardé sur le serveur.

    • Connectez à Everything Location, puis accédez au serveur Loqate à l'adresse Online Batch Cleansing et récupérez l'identifiant du fichier batch à utiliser en sortie dans votre Job.

    • Configurez l'identifiant dans le champ Batch ID.

      Cette option est utilisée uniquement pour des tests et pour des besoins de développement.

    • Laissez les autres paramètres tels qu'ils sont.

Configurer le composant de sortie et exécuter le Job

  1. Double-cliquez sur le composant tFileOutputExcel pour afficher sa vue Basic settings.

  2. Configurez le nom du fichier de destination dans le champ File Name ainsi que le nom de la feuille dans la champ Sheet name et cochez la case Define all columns auto size.

  3. Sauvegardez votre Job et appuyez sur la touche F6 pour l'exécuter.

    Le composant tBatchAddressRowCloud parse des adresses à l'aide du traitement batch. Il corrige les adresses à l'aide du service batch en ligne de Loqate et les résultats dans des fichiers batch sur le serveur Loqate.

  4. Cliquez-droit sur le composant et sélectionnez Data Viewer pour afficher les données d'adresses formatées.