Centraliser des métadonnées d'un fichier Excel - 6.1

Talend Data Services Platform Studio Guide utilisateur

EnrichVersion
6.1
EnrichProdName
Talend Data Services Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Si vous devez souvent écrire des données dans et/ou lire des données depuis une feuille de calcul Excel, vous pouvez centraliser les informations de connexion et le schéma de ce fichier dans le Repository afin de les réutiliser facilement. Ainsi, vous n'aurez pas à définir ces métadonnées manuellement pour chaque composant à chaque fois que vous souhaitez utiliser ce fichier.

Vous pouvez centraliser une connexion à un fichier Excel depuis un fichier Excel existant ou depuis les propriétés de ce fichier définies dans un Job.

Pour centraliser une connexion ainsi que le schéma d'un fichier Excel, développez le nœud Metadata du Repository, cliquez-droit sur File Excel et sélectionnez Create file Excel depuis le menu contextuel afin d'ouvrir l'assistant de configuration des métadonnées du fichier.

Pour centraliser un schéma ainsi qu'une connexion à un fichier que vous avez définis dans un Job, cliquez sur l'icône dans la vue Basic settings du composant correspondant afin d'ouvrir l'assistant de configuration des métadonnées du fichier. Notez que Built-in doit être sélectionné dans la liste Property Type.

Suivez ensuite les étapes suivantes dans l'assistant afin de :

Définir les propriétés générales

  1. Dans l'assistant de configuration des métadonnées, renseignez le champ Name, qui est obligatoire, et les champs Purpose et Description si vous le souhaitez. Les informations que vous renseignez dans le champ Description apparaissent en tant qu'info-bulle lorsque vous placez le pointeur de votre souris sur la connexion.

  2. Si nécessaire, définissez la version et le statut de la connexion dans les champs Version et Status, respectivement. Vous pouvez également gérer la version et le statut d'un élément du Repository dans la boîte de dialogue [Project Settings]. Pour plus d'informations, consultez Gérer les versions et Gérer les statuts, respectivement.

  3. Si nécessaire, cliquez sur le bouton Select à côté du champ Path afin de sélectionner un dossier sous le nœud File Excel. Ce dossier contient la connexion au fichier juste créée.

  4. Cliquez sur Next pour passer aux paramètres du fichier.

Charger le fichier

  1. Cliquez sur le bouton Browse... afin de parcourir votre système vers le fichier ou saisissez son chemin dans le champ File.

    Passez cette étape si vous sauvegardez la connexion à un fichier Excel définie dans un composant car son chemin est déjà défini dans le champ File.

  2. Si le fichier chargé provient de Excel 2007, assurez-vous que la case Read excel2007 file format(xlsx) soit cochée.

  3. Par défaut, le mode Memory-consuming (User mode) est sélectionné. Cependant, si le fichier .xslx chargé est volumineux, sélectionnez Less memory consumed for large excel(Event mode) dans la liste Generation mode pour éviter les erreurs de mémoire.

  4. Dans la zone File viewer and sheets settings, sélectionnez la (les) feuille(s) que vous souhaitez utiliser.

    • Dans la liste Please select sheet, sélectionnez la feuille dont vous souhaitez avoir un aperçu. La table d'aperçu affiche le contenu de la feuille sélectionnée.

      Par défaut, la table affiche la première feuille du fichier.

    • Dans la liste Set sheets parameters, cochez la case à côté de la (les) feuille(s) que vous souhaitez charger.

      Si vous sélectionnez plus d'une feuille, le schéma final sera une combinaison des structures de toutes les feuilles sélectionnées.

  5. Cliquez sur Next pour continuer.

Analyser le fichier

Dans cette étape, vous pouvez définir les différents paramètres de votre fichier afin que le schéma soit correctement récupéré.

  1. Selon votre fichier Excel, spécifiez l'encodage (dans le champ Encoding), le séparateur avancé pour les nombres (dans le champ Advanced separator (for number)) ainsi que le nombre de lignes à ignorer en en-tête (Header) ou en pied de page (Footer).

  2. Si nécessaire, vous pouvez définir précisément le nombre de colonnes à lire à l'aide des champs First column et Last column. Par exemple, si vous souhaitez ignorer la première colonne car elle ne contient pas de données à utiliser, saisissez 2 dans le champ First column afin de définir la deuxième colonne du schéma comme étant la première.

    Afin de récupérer le schéma d'un fichier Excel, vous n'avez pas besoin d'analyser toutes les lignes du fichier, en particulier lorsque le fichier à charger est volumineux. Afin de limiter le nombre de lignes à analyser, cochez la case Limit dans la zone Limit Of Rows et définissez le nombre de lignes désirées.

  3. Si le fichier Excel a une ligne d'en-tête, cochez la case Set heading row as column names afin de prendre en compte le nom des en-têtes. Cliquez sur Refresh afin de voir le résultat des changements précédents dans la table d'aperçu.

  4. Cliquez sur Next pour continuer.

Finaliser le schéma

La dernière étape de l'assistant affiche le schéma final généré et vous permet de personnaliser le schéma selon vos besoins.

Remarquez que tous les caractères du fichier pouvant être mal interprétés par le programme par la suite sont remplacés par un caractère neutre. Par exemple, les tirets bas remplacent les astérisques.

  1. Si besoin, renommez le schéma (par défaut metadata) et laissez un commentaire.

    Vous pouvez également personnaliser le schéma selon vos besoins : vous pouvez ajouter, supprimer ou déplacer les colonnes du schéma, exporter le schéma dans un fichier XML ou remplacer le schéma en important une définition de schéma depuis un fichier XML à l'aide de la barre d'outils.

  2. Si le fichier Excel sur lequel est basé le schéma a changé, cliquez sur le bouton Guess afin de générer à nouveau le schéma. Notez cependant que toute modification ou personnalisation du schéma n'est pas conservée lorsque vous cliquez sur Guess.

  3. Cliquez sur Finish. Le nouveau schéma apparaît dans le Repository, sous le nœud File Excel correspondant.

Vous pouvez à présent déposer la connexion au fichier, ou son schéma, depuis le Repository dans l'espace de modélisation graphique en tant que nouveau composant. Vous pouvez également la déposer sur un composant afin de réutiliser ses métadonnées. Pour plus d'informations sur l'utilisation des métadonnées centralisées, consultez Comment utiliser les métadonnées centralisées dans un Job et Paramétrer un schéma du Repository.

Pour modifier une connexion à un fichier existante, cliquez-droit sur la connexion dans le Repository et sélectionnez Edit file Excel afin d'ouvrir l'assistant de configuration des métadonnées du fichier.

Pour ajouter un nouveau schéma à une connexion à un fichier existante, cliquez-droit sur la connexion dans le Repository et sélectionnez Retrieve Schema dans le menu contextuel.

Pour éditer un schéma de fichier existant, cliquez-droit sur le schéma dans le Repository et sélectionnez Edit Schema dans le menu contextuel.