Scénario : Parser des adresses par rapport à des données de référence dans le Cloud, à l'aide du traitement batch - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario décrit un Job utilisant :

  • un composant tFixedFlowInput pour générer les données d'adresses à analyser,

  • un tBatchAddressRowCloud pour parser, standardiser et formater les adresses dans le Cloud via l'API de validation d'adresses,

  • un tFileOutputExcel pour écrire en sortie les adresses correctement formatées dans un fichier .xls.

Vous devez disposer d'une connexion à Internet pour utiliser le tBatchAddressRowCloud.

Construire le Job

  1. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique : un tFixedFlowInput, un tBatchAddressRowCloud et un tFileOutputExcel.

  2. Reliez les trois composants à l'aide de liens Main.

Configurer le composant d'entrée

  1. Double-cliquez sur le tFixedFlowInput pour ouvrir sa vue Basic settings.

  2. Créez le schéma via le bouton Edit Schema.

    Dans la boîte de dialogue qui s'ouvre, cliquez sur le bouton [+] pour ajouter les colonnes qui contiendront les informations de l'adresse d'entrée. Dans cet exemple, ajoutez ID, Organization, huit colonnes d'adresse Address1 à Address8, Locality, AdministrativeArea, PostalCode et Country.

  3. Cliquez sur OK.

  4. Dans le champ Number of rows, saisissez 1.

  5. Dans la zone Mode, sélectionnez l'option Use Inline Content.

  6. Dans la table Content, saisissez les données à analyser, par exemple :

    1000		23 girdwood road								london		sw18	GBR
    1001		1111 bayhill drive ste 290	san bruno								ca		USA
    1002		23 girdwood road								london		sw18	GBR
    1003		1111 bayhill drive ste 290	san bruno								ca		USA
    1004		23 girdwood road								london		sw18	GBR
    1005		1111 bayhill drive ste 290	san bruno								ca		USA
    1006		23 girdwood road								london		sw18	GBR
    1007		1111 bayhill drive ste 290	san bruno								ca		USA
    1008		23 girdwood road								london		sw18	GBR
    1009		1111 bayhill drive ste 290	san bruno								ca		USA
    1010		23 girdwood road								london		sw18	GBR
    ...

Parser des adresses via Loqate

Configurer le schéma et sélectionner un fournisseur d'adresses

  1. Double-cliquez sur le tBatchAddressRowCloud pour afficher sa vue Basic settings.

  2. Si nécessaire, cliquez sur le bouton Sync columns pour récupérer le schéma défini dans le composant d'entrée.

  3. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la fenêtre du schéma.

    Le schéma du tBatchAddressRowCloud contient plusieurs colonnes d'adresses prédéfinies, en lecture seule, comme dans la capture d'écran.

    La colonne STATUS retourne le statut du traitement des adresses d'entrée. Pour plus d'informations concernant les statuts du traitement, consultez Statut du traitement dans le tLoqateAddressRow.

    La colonne AddressVerificationCode retourne le code de vérification pour l'adresse traitée. Pour plus d'informations concernant les valeurs dont se compose le code ainsi que les implications de chaque segment, consultez Codes de vérification d'adresses dans le tLoqateAddressRow.

    La colonne de sortie VerificationLevel fournit un statut de vérification des adresses traitées. Pour plus d'informations, consultez Niveaux de vérification dans le tAddressRowCloud.

  4. Déplacez l'une des colonnes d'entrée dans le schéma de sortie si vous souhaitez l'afficher dans les résultats de vérification, cliquez sur OK et acceptez la propagation des modifications.

    Vous pouvez également ajouter des colonnes directement dans le schéma de sortie afin de récupérer des informations supplémentaires sur les adresses provenant du référentiel du fournisseur.

  5. Sélectionnez dans la liste Address Provider le fournisseur des données de référence par rapport auxquelles valider et formater les adresses d'entrée, Loqate dans cet exemple.

    Vous pouvez également valider des adresses par rapport au service en ligne MelissaData.

  6. Dans le champ License/API key, saisissez la clé de licence fournie par Loqate.

  7. Dans le champ Batch job name, saisissez entre guillemets le nom de votre choix à donner aux fichiers batch qui seront générés et sauvegardés sur le serveur Loqate.

    Configurez le nombre d'enregistrements d'adresses à grouper dans chaque fichier batch, dans le champ Number of rows in each batch file.

  8. Saisissez l'identifiant et le mot de passe fournis par Loqate, respectivement dans les champs Loqate website login et Loqate website password.

  9. Dans la liste Processing Mode, sélectionnez :

    Option

    Pour...

    Verify and Geocode (sélectionnée par défaut)

    standardiser et corriger les adresses et les enrichir avec des informations relatives à la latitude et la longitude.

    Utilisés ensemble, la vérification d'adresses et le géocodage coûtent des crédits supplémentaires. Pour plus d'informations, consultez Cloud Price Card (en anglais).

    Verify only

    standardiser et corriger les adresses sans les enrichir avec des informations relatives à la latitude et la longitude.

Définir le mapping et configurer les paramètres avancés

  1. Dans la table Input Mapping table :

    • utilisez le bouton [+] pour ajouter des lignes à la table.

    • Cliquez dans la colonne Address Field et sélectionnez dans la liste prédéfinie les champs contenant l'adresse d'entrée, Address dans cet exemple.

      Le composant mappe les valeurs de ces champs aux colonnes d'entrée configurées dans la table.

      Le tBatchAddressRowCloud fournit une liste de champs individuels, car les structures d'adresses de certains pays sont plus complexes que d'autres.

    • Cliquez dans la colonne Input Column et sélectionnez dans la liste du schéma d'entrée les colonnes contenant l'adresse d'entrée à parser, Address1 dans cet exemple.

  2. Si nécessaire, cochez la case Use Additional Output et définissez dans la table les champs supplémentaires des adresses que vous souhaitez récupérer du référentiel du fournisseur et ajouter aux résultats du parsing. Pour un exemple d'utilisation de cette table, consultez Définir les champs d'adresses supplémentaires.

    La colonne Address field contenant les champs d'adresses prédéfinis qui varient selon le fournisseur sélectionné. La colonne Output Column contient les champs que vous souhaitez utiliser pour écrire en sortie les informations supplémentaires. Vous devez d'abord ajouter ces colonnes supplémentaires au schéma du composant via le bouton Edit Schema.

  3. Cliquez sur l'onglet Advanced settings et configurez les paramètres selon vos besoins.

    Dans cet exemple :

    • Cochez la case Use mockup mode (no credit consumption).

      Cette case vous permet de simuler une exécution et des réponses du serveur Loqate en utilisant en entrée un fichier batch ayant déjà été traité par le Job et sauvegardé sur le serveur.

    • Accédez au serveur Loqate à l'adresse Online Batch Cleansing et récupérez l'identifiant du fichier batch à utiliser en sortie dans votre Job.

    • Configurez l'identifiant dans le champ Batch ID.

      Cette option est utilisée uniquement pour des tests et pour des besoins de développement.

    • Laissez les autres paramètres tels qu'ils sont.

Configurer le composant de sortie et exécuter le Job

  1. Double-cliquez sur le composant tFileOutputExcel pour afficher sa vue Basic settings.

  2. Configurez le nom du fichier de destination dans le champ File Name ainsi que le nom de la feuille dans la champ Sheet name et cochez la case Define all columns auto size.

  3. Sauvegardez votre Job et appuyez sur la touche F6 pour l'exécuter.

    Le composant tBatchAddressRowCloud parse des adresses à l'aide du traitement batch. Il corrige les adresses à l'aide du service batch en ligne de Loqate et les résultats dans des fichiers batch sur le serveur Loqate.

  4. Cliquez-droit sur le composant et sélectionnez Data Viewer pour afficher les données d'adresses formatées.

    Le composant tBatchAddressRowCloud fait correspondre les données d'adresse par rapport au référentiel Loqate.

    La colonne de sortie STATUS retourne le statut OK pour toutes les lignes d'adresses. Cela signifie que le processus de vérification de toutes les lignes d'adresse a pu se terminer correctement dans le composant. Pour plus d'informations concernant les statut du processus, consultez Statut du traitement dans le tLoqateAddressRow.

    La colonne de sortie VerificationLevel fournit des niveaux de vérification définis par Talend. Pour plus d'informations, consultez Niveaux de vérification dans le tAddressRowCloud.

    La colonne de sortie AddressVerificationCode retourne un code de vérification pour chaque ligne d'adresse traitée.

    Pour plus d'informations concernant les valeurs dont se compose le code et les implication de chaque segment, consultez Codes de vérification d'adresses dans le tLoqateAddressRow.