Centraliser des métadonnées File Regex - 6.5

Talend Open Studio for ESB Guide utilisateur

EnrichVersion
6.5
EnrichProdName
Talend Open Studio for ESB
task
Création et développement
EnrichPlatform
Studio Talend

Les schémas de fichier Regex servent à manipuler les fichiers composés d'expressions régulières, notamment les fichiers log. Si vous devez souvent vous connecter à un fichier Regex, vous pouvez centraliser les informations de connexion et le schéma de ce fichier dans le Repository afin de les réutiliser facilement.

L'assistant [New RegEx File] regroupe la connexion au fichier et la définition du schéma en une seule procédure de quatre étapes.

Note

Cette procédure nécessite une connaissance avancée de la syntaxe des expressions régulières.

Pour créer une connexion à un fichier Regex à partir de zéro, développez le nœud Metadata du Repository. Ensuite, cliquez-droit sur File Regex puis sélectionnez Create file regex dans le menu contextuel afin d'ouvrir l'assistant de configuration des métadonnées du fichier.

Pour centraliser une connexion à un fichier que vous avez définie dans un Job ainsi que son schéma, cliquez sur l'icône dans la vue Basic settings du composant correspondant afin d'ouvrir l'assistant de configuration des métadonnées du fichier. Notez que Built-in doit être sélectionné dans la liste Property Type.

Définissez ensuite les propriétés générales et le schéma du fichier dans l'assistant.

Définir les propriétés générales

  1. Dans l'assistant de configuration des métadonnées du fichier, renseignez le champ Name, qui est obligatoire, et les champs Purpose et Description si vous le souhaitez. Les informations fournies dans le champ Description s'affichent en tant qu'info-bulle lorsque vous placez votre curseur sur la métadonnée.

  2. Si nécessaire, définissez la version et le statut de la connexion dans les champs Version et Status, respectivement. Vous pouvez également gérer la version et le statut d'un élément du référentiel dans la boîte de dialogue [Project Settings]. Pour plus d'informations, consultez Gestion des versions et Gestion du statut, respectivement.

  3. Si nécessaire également, cliquez sur le bouton Select à côté du champ Path afin de sélectionner un dossier sous le nœud File regex. Notez que vous ne pouvez pas sélectionnez de dossier pendant que vous modifiez une connexion existante. Vous pouvez cependant déposer une connexion dans un nouveau dossier quand vous le souhaitez.

  4. Cliquez sur Next lorsque vous avez défini les propriétés générales.

Définir le chemin et le format du fichier

  1. Spécifiez le chemin entier de votre fichier source dans le champ File, ou cliquez sur le bouton Browse... pour rechercher le fichier.

    Note

    La notation de chemin Convention Universelle de Nommage (UNC) n'est pas supportée. Si votre fichier source est sur un hôte LAN, vous pouvez d'abord mapper le dossier du réseau dans un lecteur local.

  2. Sélectionnez le type d'encodage (Encoding) et le format du système d'exploitation (Format) dans lequel le fichier a été créé. Ces informations sont utilisées afin de pré-remplir les champs suivants. Si le système d'exploitation souhaité n'est pas proposé dans la liste, ignorez ce champ.

    Le File viewer donne un instantané du fichier chargé.

  3. Cliquez sur Next pour définir la structure du schéma.

Définir le parsing du fichier

Dans cette vue, vous pouvez définir les paramètres de parsing du fichier afin que le schéma du fichier soit correctement récupéré.

  1. Définissez les séparateurs de champs et de lignes dans la zone File Settings.

    • Si nécessaire, vous pouvez modifier les chiffres dans le champ Field Separator afin de spécifier la longueur des colonnes de façon précise.

    • Si le séparateur de lignes de votre fichier n'est pas le caractère de fin de ligne standard, sélectionnez Custom String dans la liste Row Separator et spécifiez le caractère dans le champ Corresponding Character.

  2. Dans le panneau de paramétrage des expressions régulières, Regular Expression settings, saisissez l'expression régulière utilisée pour délimiter le fichier.

    Avertissement

    Veillez à utiliser les bons guillemets (simples ou doubles) au moment de rédiger le code.

  3. Si votre fichier possède des en-têtes à exclure du contenu des données, cochez la case Header dans la zone Rows To Skip et configurez le nombre de lignes à ignorer dans le champ correspondant. De plus, si vous savez que le fichier contient des informations de pied de page, cochez la case Footer et définissez le nombre de lignes à ignorer.

  4. Le champ Limit of Rows vous permet de restreindre l'étendue du fichier qui fait l'analyse. Si nécessaire, cochez la case Limit et définissez ou sélectionnez le nombre de lignes souhaitées.

  5. Si le fichier contient des libellés de colonne, cochez la case Set heading row as column names afin de transformer la première ligne en libellés de colonne. Notez que le nombre de lignes d'en-tête à ignorer (champ <Rows To Skip) est incrémenté de 1.

  6. Cliquez ensuite sur Refresh preview pour que les modifications soient prises en compte. Le bouton change d'apparence en Stop jusqu'à ce que l'aperçu soit rafraîchi.

  7. Cliquez sur Next afin de passer à l'étape suivante pour vérifier et personnaliser le schéma de fichier Regex généré.

Vérifier et personnaliser le schéma du fichier

  1. Renommez le schéma (par défaut, metadata) et modifiez les colonnes du schéma comme souhaité.

    Assurez-vous que le type de données dans la colonne Type est correctement défini.

    Pour plus d'informations concernant les types de données Java, à savoir le modèle de date, consultez Java API Specification (en anglais).

    Les types de données Talend les plus utilisés sont les suivants :

    • Object : est un type de données Talend générique qui permet le traitement des données sans tenir compte de leur contenu, par exemple, un fichier de données non supporté peut être traité à l'aide d'un composant tFileInputRaw en spécifiant qu'il comporte un type de données Object.

    • List : est une liste d'éléments de type primitifs, séparés par un espace, dans une définition de Schéma XML, définis à l'aide de l'élément xsd:list.

    • Document : est un type de données permettant le traitement d'un document XML en entier sans tenir compte de son contenu.

  2. Pour restaurer ou mettre à jour le schéma du fichier Regex, cliquez sur Guess. Notez cependant que toute modification ou personnalisation du schéma n'est pas conservée lorsque vous cliquez sur Guess.

  3. Une fois vos changements effectués, cliquez sur Finish pour fermer l'assistant.

Le nouveau schéma apparaît dans l'arborescence du Repository, sous le nœud de la connexion File regex appropriée. Vous pouvez glisser-déposer la métadonnée du Repository dans l'espace de modélisation graphique en tant que nouveau composant. Vous pouvez également la déposer sur un composant afin de réutiliser ses métadonnées. Pour plus d'informations concernant l'utilisation des métadonnées centralisées, consultez Utiliser les métadonnées centralisées dans un Job et Paramétrer un schéma du Repository dans un Job.

Pour modifier une connexion à un fichier existante, cliquez-droit sur la connexion dans le Repository et sélectionnez Edit file regex afin d'ouvrir l'assistant de configuration des métadonnées du fichier.

Pour ajouter un nouveau schéma à une connexion à un fichier existante, cliquez-droit sur la connexion dans le Repository et sélectionnez Retrieve Schema dans le menu contextuel.

Pour éditer un schéma de fichier existant, cliquez-droit sur le schéma dans le Repository et sélectionnez Edit Schema dans le menu contextuel.