Propriétés du tAddressRowCloud - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Famille du composant

Data Quality

 

Fonction

Le composant tAddressRowCloud vérifie et formate les adresses internationales dans le Cloud en utilisant des services en ligne.

Objectif

Le tAddressRowCloud vous permet de parser des données d'adresses et d'obtenir des adresses formatées de manière rapide et précise sans avoir à installer de logiciel.

Les données d'adresses sont corrigées par rapport aux dernières données de référence en ligne provenant de plusieurs fournisseurs, notamment Loqate, MelissaData, Google ou QAS. Le tAddressRowCloud propose des alternatives pour les données d'adresses manquantes, telles que le pays ou le code postal et les adresses sont enrichies avec d'autres éléments comme la latitude et la longitude.

Avertissement

Chaque ligne de données a besoin d'un ou plusieurs appels de service Web du fournisseur. Le nombre de requêtes par ligne peut varier selon le fournisseur. Le quota dépend de la licence donnée par le fournisseur de service Web. Assurez-vous de ne pas exécuter le composant sur un ensemble de données excédant votre quota car vous aurez des messages d'erreur et les adresses ne seront pas corrigées.

Pour plus d'informations sur les conditions d'utilisation de l'API Google Places, consultez Terms of Service.

Basic settings

Schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant. Le schéma est soit local (Built-In), soit distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

 

 

Built-In : Le schéma est créé et conservé ponctuellement pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et il est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend.

 

Edit Schema

Cliquez sur le bouton [...] et définissez le schéma d'entrée et de sortie de données d'adresses.

Le schéma de sortie du composant tAddressRowCloud propose plusieurs colonnes d'adresses en lecture seule dont la colonne VerificationLevel qui fournit un statut de la vérification de l'adresse traitée. Les niveaux de vérification de cette colonne sont définis par Talend. Pour plus d'informations, consultez Niveaux de vérification dans le tAddressRowCloud.

Certaines colonnes de sortie peuvent aussi rester vides lors de l'exécution du Job selon le fournisseur d'adresses sélectionné dans les Basic settings du composant.

 

Address Provider

Sélectionnez dans la liste le fournisseur des données de référence par rapport auquel vous souhaitez valider et formater les adresses d'entrée.

La liste des fournisseurs d'adresses est constituée de Google, Loqate, QAS et MelissaData Address.

 

License/API key

Saisissez la clé de licence ou d'API fournie par le fournisseur d'adresses sélectionné dans la liste. Vous devez visiter le site du fournisseur, vous enregistrer et obtenir la clé de licence/d'API.

Lorsque vous choisissez Google comme fournisseur, le composant utilise l'API Google Places. Vous devez générer la clé depuis la console développeur de Google sur https://developers.google.com/console/help/new/ et définir la clé dans ce champ.

Loqate uniquement

Processing Mode

Cette option s'applique uniquement au fournisseur Loqate.

Dans la liste, sélectionnez le mode de validation d'adresses que vous souhaitez utiliser :

-Verify and Geocode (option sélectionnée par défaut) : avec ce mode, le composant standardise et corrige les adresses en les enrichissant avec des informations de latitude et de longitude.

Note

Utilisés ensemble, la vérification d'adresses et le géocodage coûtent des crédits supplémentaires. Pour plus d'informations, consultez Cloud Price Card (en anglais).

-Verify only : avec ce mode, le composant standardise et corrige les adresses sans les enrichir avec des informations de latitude et de longitude.

QAS uniquement

Country

Cette option s'applique uniquement au fournisseur QAS.

Sélectionnez dans la liste le pays correspondant à votre adresse d'entrée.

Lorsque vous sélectionnez QAS comme fournisseur, le composant utilise le service QAS Pro OnDemand. Pour plus d'informations concernant la vérification d'adresses par Experian, consultez la fiche produit à l'adresse suivante : https://www.edq.com/globalassets/product-sheets/address-verification.pdf (en anglais).

QAS uniquement 

QAS OnDemand username

Cette option s'applique uniquement au fournisseur QAS.

Saisissez le nom d'utilisateur que vous pouvez trouver dans la licence fournie par QAS.

Vous pouvez vérifier votre nom d'utilisateur depuis le portail QAS OnDemand à l'adresse suivante : https://sso.experianmarketingservices.com (en anglais).

QAS uniquement 

Password

Cette option s'applique uniquement au fournisseur QAS.

Saisissez le mot de passe généré que vous pouvez trouver dans la licence fournie par QAS.

Vous pouvez vérifier votre mot de passe depuis le portail QAS OnDemand à l'adresse suivante : https://sso.experianmarketingservices.com (en anglais).

 

Use security mode to connect

Cochez cette case pour vous connecter au Cloud de manière sécurisée. Cela peut légèrement réduire les performances.

Selon le fournisseur d'adresses choisi, cette case n'est pas toujours disponible.

 

Mapping

Address field : ajoutez des lignes à la table et sélectionnez dans une liste d'adresses prédéfinies les champs qui contiendront l'adresse d'entrée.

Cette liste d'adresses comprend les colonnes suivantes pour tous les fournisseurs d'adresses : Address, PostalCode, Locality, AdministrativeArea et Country.

Input Column : ajoutez des lignes à la table et sélectionnez dans la liste les colonnes contenant les adresses du schéma d'entrée. Le schéma d'entrée peut contenir une ou plusieurs colonne(s) et même contenir des colonnes ne représentant pas de données d'adresses.

 

Use Additional Output

Cette option est disponible uniquement pour le fournisseur QAS.

Cochez cette case et utilisez la table Output Mapping pour ajouter des colonnes d'adresses au schéma de sortie :

Address field : permet d'ajouter des lignes à la table et de sélectionner, dans la liste d'adresses prédéfinies, les champs des informations supplémentaires que vous souhaitez écrire en sortie.

Ces champs d'adresses prédéfinies varient selon le fournisseur sélectionné dans la liste Address Provider. Pour plus d'informations concernant les champs d'adresses supplémentaires, consultez le site Web de votre fournisseur.

Output Column : sélectionnez dans la liste les colonnes qui contiendront les informations des adresses supplémentaires de sortie. Vous devez d'abord ajouter ces colonnes supplémentaires au schéma de sortie du tAddressRowCloud via le bouton Edit Schema.

Le tAddressRowCloud mappe les valeurs des champs d'adresses vers les colonnes de sortie dans la colonne Output Column.

Si vous choisissez d'avoir une colonne de sortie dans la table Output Address ayant le même nom qu'une colonne d'entrée, la valeur de la colonne d'entrée est écrasée par la valeur donnée par le composant.

Advanced settings

Les champs dans cette vue varieront selon le fournisseur d'adresses sélectionné dans la vue Basic settings.

-Address Line Separator : définissez la chaîne de caractères séparant les composants d'adresse en sortie dans les champs d'adresse en sortie. Si vous gardez l'option par défaut Default dans ce champ, le composant utilisera un séparateur de ligne différent selon le fournisseur d'adresses sélectionné. Par exemple, il utilisera (<BR>) avec Loqate et ; avec MelissaData.

-Default Country : sélectionnez le nom du pays pour lequel le code ISO 3166-1 alpha-3 doit être utilisé lors du parsing des données et si aucun pays identifiable n'est trouvé dans l'enregistrement d'entrée.

-Forced Country : sélectionnez le nom du pays pour lequel le code ISO 3166-1 alpha-3 doit être utilisé pour tous les enregistrements d'entrée lors du parsing de données.

-Output Script : sélectionnez la langue de translittération de l'adresse de sortie.

La liste des scripts diffère selon le fournisseur d'adresses sélectionné.

Lorsque le fournisseur d'adresses est Loqate ou MelissaData :

Si vous gardez l'option par défaut Not set dans ce champ, le composant va vérifier les données d'entrée et décider d'utiliser Native ou Latin selon que la plus grande part des données d'entrée soit en Native ou en Latin.

Sélectionnez Latin pour encoder les résultats du parsing en Latin, c'est-à-dire en caractères occidentaux.

Sélectionnez Native/Match input pour encoder les résultats du parsing à l'aide du script du pays lorsque cela est possible.

Ci-dessous se trouve une liste des jeux de caractères (scripts) et des langues supportés par le script Native/Match input que le tAddressRowCloud peut translittérer :

Cyrl - Cyrillique (Russe),

Grek - Grec (Grèce)

Hebr - Hébreu (Israël),

Hani - Kanji (Japon),

Hans - Chinois simplifié (Chine),

Arab - Arabe (Emirats arabes unis),

Thai - Thaï (Thaïlande),

Hang - Hangeul (Corée du Sud).

-Minimum match score : spécifiez le score de correspondance minimum qu'un enregistrement doit atteindre pour ne pas annuler le parsing. La valeur par défaut est zéro. Les valeurs valides sont comprises entre 0 et 100.

Cette option est très utile lorsque vous souhaitez avoir, dans les champs de sortie, les données d'entrée, si un niveau donné de vérification (score de correspondance minimum) n'a pas été atteint.

-Minimum interval between two queries (milliseconds) : définissez en millisecondes la période minimum d'attente entre deux requêtes.

-Limit of retrying the same query in case it fails (times) : définissez combien de fois une même requête doit être relancée en cas d'échec.

-Interval between two retries of the same query (milliseconds) : définissez en millisecondes la période d'attente minimum entre deux essais d'une même requête.

-Delay before forcing the termination of the query executor (seconds) : définissez en secondes la période d'attente avant la fermeture forcée de l'exécuteur de requêtes.

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau des composants.

Global Variables

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Ce composant est un composant intermédiaire. Il requiert des composants d'entrée et de sortie.

Limitation

n/a