Centraliser des métadonnées File Delimited

Talend Real-time Big Data Platform Studio Guide utilisateur

EnrichVersion
6.4
EnrichProdName
Talend Real-Time Big Data Platform
task
Qualité et préparation de données
Création et développement
EnrichPlatform
Studio Talend

Si vous devez souvent lire et/ou écrire des données dans des fichiers délimités, vous pouvez centraliser les métadonnées de ces fichiers dans le Repository afin de les réutiliser facilement. Les métadonnées de type File Delimited peuvent être utilisées pour définir les propriétés des composants tInputFileDelimited, tFileOutputDelimited et t*OutputBulk.

Note

La création de schémas de fichier est similaire pour tous les types de fichiers : Delimited (délimités), Positional (positionnels), Regex (Expressions régulières), XML ou LDIF.

A la différence de l'assistant de connexion à une base de données, l'assistant [New Delimited File] regroupe la connexion au fichier et la définition du schéma, en une seule procédure de quatre étapes.

Pour créer une connexion à un fichier délimité à partir de zéro, développez le nœud Metadata du Repository. Ensuite, cliquez-droit sur File Delimited puis sélectionnez Create file delimited dans le menu contextuel afin d'ouvrir l'assistant de configuration des métadonnées du fichier.

Pour centraliser une connexion à un fichier que vous avez définie dans un Job ainsi que son schéma, cliquez sur l'icône dans la vue Basic settings du composant correspondant afin d'ouvrir l'assistant de configuration des métadonnées du fichier. Notez que Built-in doit être sélectionné dans la liste Property Type.

Définissez ensuite les propriétés générales et le schéma du fichier dans l'assistant.

Définir les propriétés générales

  1. Dans l'assistant de configuration des métadonnées du fichier, renseignez le champ Name, qui est obligatoire, et les champs Purpose et Description si vous le souhaitez. Les informations que vous renseignez dans le champ Description apparaissent en tant qu'info-bulle lorsque vous placez le pointeur de votre souris sur la connexion.

  2. Si nécessaire, définissez la version et le statut de la connexion dans les champs Version et Status, respectivement. Vous pouvez également gérer la version et le statut d'un élément du Repository dans la boîte de dialogue [Project Settings]. Pour plus d'informations, consultez Gérer les versions et Gérer les statuts, respectivement.

  3. Si nécessaire également, cliquez sur le bouton Select à côté du champ Path afin de sélectionner un dossier sous le nœud File delimited. Ce dossier contient la connexion au fichier juste créé. Notez que vous ne pouvez pas sélectionnez de dossier pendant que vous éditez une connexion existante. Vous pouvez cependant déposer une connexion dans un nouveau dossier quand vous le souhaitez.

  4. Cliquez sur Next lorsque vous avez défini les propriétés générales.

Définir le chemin et le format du fichier

  1. Cliquez sur le bouton Browse... pour rechercher votre fichier, dans votre hôte local ou un hôte LAN.

  2. Sélectionnez le Format du système d'exploitation dans lequel le fichier a été créé. Cette information est utilisée pour pré-remplir les champs des étapes suivantes. Si la liste ne propose pas le format approprié, ignorez ce champ.

  3. Le File viewer donne un instantané du fichier chargé. Vérifiez la cohérence du fichier, la présence d'un en-tête et plus généralement la structure du fichier.

  4. Cliquez sur Next pour passer à l'étape suivante.

Définir le parsing du fichier

Dans cette vue, vous pouvez affiner différents paramètres de votre fichier afin que le schéma soit correctement récupéré.

  1. Paramétrez le type d'encodage (Encoding) et les séparateurs de champs et de lignes (Field separator et Row separator) dans la zone File Settings.

  2. En fonction de votre type de fichier (CSV ou Delimited), vous pouvez paramétrer des caractères d'inclusion et d'exclusion (respectivement Text Enclosure et Escape character).

  3. Si l'aperçu du fichier indique un message d'en-tête, excluez cet en-tête de l'analyse. Indiquez le nombre de lignes d'en-tête à ignorer. En outre, si le fichier contient des informations de pied de page, indiquez le nombre de lignes à ignorer.

  4. Le champ Limit of Rows vous permet de restreindre l'étendue du fichier qui fait l'analyse. Si nécessaire, cochez la case Limit et définissez ou sélectionnez le nombre de lignes souhaitées.

  5. Dans le panneau File Preview, vous pouvez visualiser l'impact de vos paramétrages.

  6. Cochez la case Set heading row as column names pour transformer la première ligne analysée en libellés des colonnes du schéma. Notez que le nombre de lignes d'en-tête à ignorer (champ Rows To Skip) est incrémenté de 1.

  7. Cliquez sur Refresh dans le panneau d'aperçu, afin que les modifications de paramétrage prennent effet.

  8. Cliquez sur Next pour accéder à l'étape suivante permettant de vérifier et de personnaliser le schéma de fichier généré.

Vérifier et personnaliser le schéma du fichier

La dernière étape affiche le schéma du fichier délimité généré. Vous pouvez personnaliser le tableau.

Assurez-vous que le type de données dans la colonne Type est correctement défini.

Pour plus d'informations concernant les types de données Java, à savoir le modèle de date, consultez Java API Specification (en anglais).

Les types de données Talend les plus utilisés sont les suivants :

  • Object : est un type de données Talend générique qui permet le traitement des données sans tenir compte de leur contenu, par exemple, un fichier de données non supporté peut être traité à l'aide d'un composant tFileInputRaw en spécifiant qu'il comporte un type de données Object.

  • List : est une liste d'éléments de type primitifs, séparés par un espace, dans une définition de Schéma XML, définis à l'aide de l'élément xsd:list.

  • Dynamic : est un type de données pouvant être fixé pour une seule colonne à la fin d'un schéma afin de permettre le traitement des champs tels que les colonnes VARCHAR(100), également nommées 'Column<X>' ou si l'entrée comporte un en-tête, dans les noms de colonne figurant dans l'en-tête. Pour plus d'informations, consultez Schéma dynamique.

  • Document : est un type de données permettant le traitement d'un document XML en entier sans tenir compte de son contenu.

  1. Si le fichier délimité sur lequel est basé le schéma a été modifié, utilisez le bouton Guess pour générer le schéma à nouveau. Notez que si vous personnalisez le schéma, la fonctionnalité Guess ne retiendra pas ces modifications.

  2. Cliquez sur Finish pour valider. Le nouveau schéma apparaît dans l'arborescence du Repository, sous le nœud de la connexion File Delimited appropriée.

Vous pouvez à présent déposer n'importe quelle connexion à un fichier ou n'importe quel schéma depuis le Repository dans l'espace de modélisation graphique en tant que nouveau composant. Vous pouvez également la déposer sur un composant afin de réutiliser ses métadonnées. Pour plus d'informations sur l'utilisation des métadonnées centralisées, consultez Comment utiliser les métadonnées centralisées dans un Job et Paramétrer un schéma du Repository.

Pour modifier une connexion à un fichier existante, cliquez-droit sur la connexion dans le Repository et sélectionnez Edit file delimited afin d'ouvrir l'assistant de configuration des métadonnées du fichier.

Pour ajouter un nouveau schéma à une connexion à un fichier existante, cliquez-droit sur la connexion dans le Repository et sélectionnez Retrieve Schema dans le menu contextuel.

Pour éditer un schéma de fichier existant, cliquez-droit sur le schéma dans le Repository et sélectionnez Edit Schema dans le menu contextuel.