Procédure - 6.4

Processing (Integration)

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Processing (Intégration)
Gouvernance de données > Systèmes tiers > Composants Processing (Intégration)
Qualité et préparation de données > Systèmes tiers > Composants Processing (Intégration)
EnrichPlatform
Studio Talend

Procédure

  1. A partir de la Palette, glissez dans le Job designer les composants tFileInputDelimited de la famille File > Input, tExtractXMLField de la famille Xml, tFileOutputDelimited de la famille File > Output et tLogRow de la famille Logs & Errors.
    Connectez les trois premiers composants à l'aide de liens Row > Main
    Reliez le tExtractXMLField au tLogRow à l'aide d'un lien Row > Reject.
  2. Double-cliquez sur le composant tFileInputDelimited pour paramétrer ses propriétés dans l'onglet Basic settings.
  3. Sélectionnez l'option Built-in à partir de la liste déroulante Schema et renseignez manuellement les informations concernant le fichier délimité dans les champs correspondants.
    Cliquez sur le bouton [...] à côté du champ Edit schema pour afficher la boîte de dialogue permettant de définir la structure des données, comme présenté ci-dessus.
    Cliquez sur le bouton [+] pour ajouter autant de lignes que nécessaire à la structure des données. Dans cet exemple, il n'y a qu'une seule colonne dans le schéma : xmlStr.
    Cliquez sur OK pour valider vos changements et fermer la boîte de dialogue.
    Remarque :

    Si vous avez préalablement stocké votre schéma dans le répertoire Metadata sous File delimited, sélectionnez l'option Repository dans la liste déroulante Schema puis cliquez sur le bouton [...] à côté du champ pour afficher la boîte de dialogue [Repository Content] à partir de laquelle vous pouvez sélectionner un schéma pertinent. Cliquez sur OK pour fermer la boîte de dialogue et remplir les champs automatiquement avec les métadonnées contenues dans le schéma.

    Pour plus d'informations sur le stockage des schémas de métadonnées dans le Repository, consultez le Guide utilisateur du Studio Talend .

  4. Dans le champ File Name, renseignez le chemin d'accès ou cliquez sur le bouton [...] pour parcourir vos dossiers jusqu'au fichier à traiter. Dans cet exemple, il s'agit du fichier CustomerDetails_Error.
    Ce fichier csv stocké localement contient une suite de lignes simples au format XML, séparées par un double retour chariot.
    Dans le champ Row Separator, renseignez le séparateur de lignes, ici le double retour chariot. Dans le champ Field Separator, renseignez le séparateur de champ, aucun ici.
    Dans cet exemple, il n'y a pas d'en-tête (Header), de pied de page (Footer) ou de nombre limite de lignes à traiter (Limit).
  5. Dans l'espace graphique, double-cliquez sur le composant tExtractXMLField pour paramétrer ses propriétés dans l'onglet Basic settings.
  6. Cliquez sur le bouton Sync columns pour récupérer le schéma du composant précédent. Vous pouvez cliquer sur le bouton [...] à côté du champ Edit schema pour consulter le schéma ou le modifier.
    La colonne Column du tableau Mapping sera automatiquement renseignée avec le schéma défini.
  7. Dans la liste Xml field, sélectionnez la colonne dont vous souhaitez extraire le contenu XML. Dans cet exemple, la colonne se nomme xmlStr.
    Dans le champ Loop XPath query, saisissez le nœud de l'arborescence sur lequel effectuer la boucle afin de récupérer les données.
  8. Dans le Job designer, double-cliquez sur le composant tFileOutputDelimited pour paramétrer ses propriétés dans l'onglet Basic settings.
  9. Dans le champ File Name, indiquez le répertoire et le nom du fichier de sortie. Pour ce scénario, appelez le fichier CustomerNames_right.csv.
    Cliquez sur le bouton Sync columns pour récupérer le schéma du composant précédent. Vous pouvez cliquer sur le bouton [...] à côté du champ Edit schema pour consulter le schéma ou le modifier.
  10. Dans le Job designer, double-cliquez sur le composant tLogRow pour paramétrer ses propriétés dans l'onglet Basic settings de la vue Component.
  11. Cliquez sur le bouton Sync Columns pour récupérer le schéma du composant précédent. Pour plus d'informations sur le composant tLogRow, consultez tLogRow.
  12. Enregistrez le Job et appuyez sur F6 pour l'exécuter.

Résultats

Le composant tExtractXMLField lit et extrait dans un fichier délimité en sortie, CustomerNames_right dans cet exemple, les informations concernant les clients dont la structure XML est correcte, et affiche les lignes erronées dans la console de log.