Préparer la métadonnée relative aux films - 7.1

Guide de prise en main de Talend Data Management Platform

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Management Platform
task
Création et développement
Installation et mise à niveau
Qualité et préparation de données > Nettoyage de données
Qualité et préparation de données > Profiling de données
EnrichPlatform
Studio Talend
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime

Cette section décrit comment configurer la métadonnée du fichier source movies.csv dans le Repository. Les métadonnées stockées dans le référentiel peuvent être utilisées dans plusieurs Jobs, vous permettant ainsi de configurer rapidement vos Jobs sans avoir à définir chaque paramètre et schéma manuellement.

Avant de commencer

  • Votre fichier source movies.csv doit être disponible dans le dossier C:\getting_started\input_data\.

Procédure

  1. Dans la vue Repository, développez le nœud Metadata, cliquez-droit sur File delimited et sélectionnez Create file delimited dans le menu contextuel pour ouvrir l'assistant New Delimited File.
  2. Dans l'assistant New Delimited File, saisissez un nom pour la métadonnée du fichier, movies dans cet exemple, et d'autres informations utiles permettant de décrire votre métadonnée, puis cliquez sur Next pour passer à l'étape suivante et définir les propriétés générales du fichier.

    Dans cette étape de l'assistant, Name est le seul champ obligatoire. Les informations fournies dans le champ Description s'affichent en tant qu'info-bulle lorsque vous placez votre curseur sur la métadonnée.

  3. Dans le champ File, spécifiez le chemin du fichier source, ou cliquez sur Browse pour parcourir votre système jusqu'à ce fichier.

    La zone File Viewer affiche un aperçu du fichier, vous permettant de vérifier sa cohérence, la présence d'un en-tête et la structure du fichier.

  4. Dans la liste Format, sélectionnez votre système d'exploitation et cliquez sur Next pour parser le fichier.
  5. Dans l'onglet Preview, cochez la case Set heading row as column names pour récupérer les noms de colonnes de la première ligne, puis cliquez sur Refresh Preview.

    La case Header de la zone Rows To Skip est automatiquement cochée et le nombre de lignes d'en-tête à ignorer est incrémenté de 1.

  6. Si le fichier contient plusieurs lignes d'en-tête devant être ignorées lors du parsage du fichier, spécifiez le nombre de lignes, dans ce champ, puis cliquez sur Refresh Preview.
  7. Cliquez sur Next pour récupérer le schéma du fichier.

    La table Description of the Schema affiche le schéma généré du fichier.

  8. Nommez le schéma movies_schema, vérifiez-le et modifiez-le selon vos besoins.

    Dans cet exemple, augmentez la valeur dans la colonne Length pour les colonnes title et url.

  9. Cliquez sur Finish pour valider le schéma et fermer l'assistant.

    La métadonnée créée s'affiche dans la vue Repository.

Résultats

La métadonnée du fichier relatif aux films est maintenant prête à être utilisée. Vous allez utiliser cette métadonnée avec votre composant d'entrée lisant le fichier source.