Scénario 2 : Extraire les données XML erronées dans un flux de rejet - 6.1

Composants Talend Open Studio Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario décrit un Job à trois composants qui permet de lire un fichier XML et :

  1. d'une part, de retourner les données XML correctes dans un autre fichier XML,

  2. et d'autre part, d'afficher dans la console de log les données erronées dont le type ne correspond pas au type défini.

  1. A partir de la Palette, glissez les composants tFileInputXML, tFileOutputXML et tLogRow dans l'espace de modélisation.

    Cliquez-droit sur le composant tFileInputXML, sélectionnez Row > Main dans le menu contextuel, et cliquez sur le composant tFileOutputXML pour créer le lien.

    Cliquez-droit sur le composant tFileInputXML, sélectionnez Row > Reject dans le menu contextuel, et cliquez sur le composant tLogRow pour créer le lien de rejet.

  2. Double-cliquez sur le composant tFileInputXML pour afficher l'onglet Basic settings de la vue Component et paramétrer ses propriétés.

  3. Dans la liste Property Type, sélectionnez Repository et cliquez sur le bouton [...] pour afficher la boîte de dialogue [Repository Content] à partir de laquelle vous pouvez sélectionner la métadonnée relative à votre fichier si vous l'avez stocké sous le nœud File xml du répertoire Metadata du Repository. Les champs suivants seront renseignés automatiquement. Sinon, sélectionnez le mode Built-in et renseignez ces champs manuellement.

    Pour plus d'informations sur le stockage des schémas de métadonnées dans le Repository, consultez le Guide utilisateur du Studio Talend.

  4. Dans le champ Schema, sélectionnez Repository et cliquez sur le bouton [...] pour sélectionner le schéma décrivant la structure de votre fichier si vous l'avez stocké dans le Repository. Sinon, cliquez sur le bouton [...] à côté du champ Edit schema et définissez le schéma manuellement.

    Dans cet exemple, le schéma comprend cinq colonnes : id, CustomerName, CustomerAddress, idState et id2.

  5. Cliquez sur le bouton [...] à côté du champ Filename et indiquez le chemin d'accès au fichier XML.

  6. Dans le champ Loop XPath query, saisissez, entre guillemets, le chemin du nœud sur lequel effectuer une boucle.

    Dans la table Mapping, la colonne Column est automatiquement renseignée avec les colonnes définies dans le schéma.

    Dans la colonne XPath query, saisissez entre guillemets le nœud du fichier XML contenant les données que vous voulez extraire dans la colonne correspondante.

  7. Dans le champ Limit, saisissez le nombre de lignes à traiter. Dans ce scénario, l'objectif est de traiter les 10 premières lignes.

  8. Double-cliquez sur le composant tFileOutputXML pour afficher l'onglet Basic settings de la vue Component et paramétrer ses propriétés.

  9. Cliquez sur le bouton [...] à côté du champ File Name pour sélectionner le répertoire de destination du fichier et saisissez le nom du fichier. Dans ce scénario, appelez le fichier customer_data.xml.

    Dans le champ Row tag, saisissez entre guillemets le nom que vous souhaitez donner à la balise contenant les données.

    Cliquez sur Edit schema et assurez-vous que le schéma est récupéré du schéma d'entrée. Si nécessaire, cliquez sur Sync columns pour récupérer le schéma du composant précédent.

  10. Double-cliquez sur le composant tLogRow pour afficher l'onglet Basic settings de la vue Component et paramétrer ses propriétés.

    Cliquez sur Edit schema et assurez-vous que le schéma est récupéré du schéma d'entrée. Si nécessaire, cliquez sur Sync columns pour récupérer le schéma du composant précédent.

    Dans la zone Mode, sélectionnez l'option Vertical.

  11. Enregistrez votre Job et appuyez sur F6 pour l'exécuter.

Le fichier customer_data.xml contenant les données correctes est créé et les données erronées sont affichées dans la console de la vue Run.