Centraliser des métadonnées File Regex - 6.3

Talend Big Data Platform Studio Guide utilisateur

EnrichVersion
6.3
EnrichProdName
Talend Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Les schémas de fichier Regex servent à manipuler les fichiers composés d'expressions régulières, notamment les fichiers log. Si vous devez souvent vous connecter à un fichier Regex, vous pouvez centraliser les informations de connexion et le schéma de ce fichier dans le Repository afin de les réutiliser facilement.

L'assistant [New RegEx File] regroupe la connexion au fichier et la définition du schéma en une seule procédure de quatre étapes.

Note

Cette procédure nécessite une connaissance avancée de la syntaxe des expressions régulières.

Pour créer une connexion à un fichier Regex à partir de zéro, développez le nœud Metadata du Repository. Ensuite, cliquez-droit sur File Regex puis sélectionnez Create file regex dans le menu contextuel afin d'ouvrir l'assistant de configuration des métadonnées du fichier.

Pour centraliser une connexion à un fichier que vous avez définie dans un Job ainsi que son schéma, cliquez sur l'icône dans la vue Basic settings du composant correspondant afin d'ouvrir l'assistant de configuration des métadonnées du fichier. Notez que Built-in doit être sélectionné dans la liste Property Type.

Définissez ensuite les propriétés générales et le schéma du fichier dans l'assistant.

Définir les propriétés générales

  1. Dans l'assistant de configuration des métadonnées du fichier, renseignez le champ Name, qui est obligatoire et les champs Purpose et Description si vous le souhaitez. Les informations que vous renseignez dans le champ Description apparaissent en tant qu'info-bulle lorsque vous placez le pointeur de votre souris sur la connexion.

  2. Si nécessaire, définissez la version et le statut de la connexion dans les champs Version et Status, respectivement. Vous pouvez également gérer la version et le statut d'un élément du Repository dans la boîte de dialogue [Project Settings]. Pour plus d'informations, consultez Gérer les versions et Gérer les statuts, respectivement.

  3. Si nécessaire également, cliquez sur le bouton Select à côté du champ Path afin de sélectionner un dossier sous le nœud File regex. Ce dossier contient la connexion au fichier créée. Notez que vous ne pouvez pas sélectionner de dossier pendant que vous modifiez une connexion existante. Vous pouvez cependant déposer une connexion dans un nouveau dossier quand vous le souhaitez.

  4. Cliquez sur Next lorsque vous avez défini les propriétés générales.

Configurer le chemin et le format du fichier

  1. Cliquez sur le bouton Browse... pour rechercher votre fichier, dans votre hôte local ou un hôte LAN.

  2. Sélectionnez le Format du système d'exploitation dans lequel le fichier a été créé. Cette information est utilisée pour pré-remplir les champs des étapes suivantes. Si la liste ne propose pas le format approprié, ignorez ce champ.

    Le File viewer donne un instantané du fichier chargé.

  3. Cliquez sur Next pour définir la structure du schéma.

Définir les paramètres de parsing du fichier

Dans cette vue, vous pouvez affiner différents paramètres de votre fichier afin que le schéma soit correctement récupéré.

  1. Définissez les séparateurs de champs et de lignes dans la zone File Settings.

    • Si nécessaire, vous pouvez modifier les chiffres dans le champ Field Separator afin de spécifier la longueur des colonnes de façon précise.

    • Si le séparateur de lignes de votre fichier n'est pas le caractère de fin de ligne standard, sélectionnez Custom String dans la liste Row Separator et spécifiez le caractère dans le champ Corresponding Character.

  2. Dans le panneau de paramétrage des expressions régulières, Regular Expression settings, saisissez l'expression régulière utilisée pour délimiter le fichier.

    Avertissement

    Veillez à utiliser les bons guillemets (simples ou doubles) au moment de rédiger le code.

  3. Si votre fichier possède des en-têtes à exclure du contenu des données, cochez la case Header dans la zone Rows To Skip et définissez le nombre de lignes à ignorer dans le champ correspondant. De plus, si vous savez que le fichier contient des informations de pied de page, cochez la case Footer et définissez le nombre de lignes à ignorer.

  4. La zone Limit of Rows vous permet de restreindre l'étendue du fichier à analyser. Si nécessaire, cochez la case Limit et définissez ou sélectionnez le nombre de lignes souhaité.

  5. Si le fichier contient des libellés de colonne, cochez la case Set heading row as column names afin de transformer la première ligne en libellés de colonne. Notez que le nombre de lignes d'en-tête à ignorer est incrémenté de 1.

  6. Cliquez ensuite sur Refresh preview pour que les modifications soient prises en compte. Le bouton change d'apparence en Stop jusqu'à ce que l'aperçu soit rafraîchi.

  7. Cliquez sur Next afin de passer à l'étape suivante pour vérifier et personnaliser le schéma de fichier Regex généré.

Vérifier et personnaliser le schéma du fichier

  1. Renommez le schéma (par défaut, metadata) et modifiez les colonnes du schéma comme souhaité.

    Assurez-vous que le type de données dans la colonne Type est correctement défini.

    Pour plus d'informations concernant les types de données Java, à savoir le modèle de date, consultez Java API Specification (en anglais).

    Les types de données Talend les plus utilisés sont les suivants :

    • Object : est un type de données Talend générique qui permet le traitement des données sans tenir compte de leur contenu, par exemple, un fichier de données non supporté peut être traité à l'aide d'un composant tFileInputRaw en spécifiant qu'il comporte un type de données Object.

    • List : est une liste d'éléments de type primitifs, séparés par un espace, dans une définition de Schéma XML, définis à l'aide de l'élément xsd:list.

    • Dynamic : est un type de données pouvant être fixé pour une seule colonne à la fin d'un schéma afin de permettre le traitement des champs tels que les colonnes VARCHAR(100), également nommées 'Column<X>' ou si l'entrée comporte un en-tête, dans les noms de colonne figurant dans l'en-tête. Pour plus d'informations, consultez Schéma dynamique.

    • Document : est un type de données permettant le traitement d'un document XML en entier sans tenir compte de son contenu.

  2. Pour restaurer ou mettre à jour le schéma du fichier Regex, cliquez sur Guess. Notez cependant que toute modification ou personnalisation du schéma n'est pas conservée lorsque vous cliquez sur Guess.

  3. Une fois vos changements effectués, cliquez sur Finish pour fermer l'assistant.

Le nouveau schéma apparaît dans l'arborescence du Repository, sous le nœud de la connexion File regex appropriée. Vous pouvez glisser-déposer la métadonnée du Repository dans l'espace de modélisation graphique en tant que nouveau composant. Vous pouvez également la déposer sur un composant afin de réutiliser ses métadonnées. Pour plus d'informations sur l'utilisation des métadonnées centralisées, consultez Comment utiliser les métadonnées centralisées dans un Job et Paramétrer un schéma du Repository.

Pour modifier une connexion à un fichier existante, cliquez-droit sur la connexion dans le Repository et sélectionnez Edit file regex afin d'ouvrir l'assistant de configuration des métadonnées du fichier.

Pour ajouter un nouveau schéma à une connexion à un fichier existante, cliquez-droit sur la connexion dans le Repository et sélectionnez Retrieve Schema dans le menu contextuel.

Pour éditer un schéma de fichier existant, cliquez-droit sur le schéma dans le Repository et sélectionnez Edit Schema dans le menu contextuel.