Propriétés du tFileInputExcel Standard

Excel

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Big Data
Talend Open Studio for Big Data
Talend ESB
Talend Open Studio for Data Integration
Talend MDM Platform
Talend Real-Time Big Data Platform
Talend Data Integration
Talend Open Studio for MDM
Talend Data Fabric
Talend Open Studio for ESB
Talend Data Services Platform
Talend Data Management Platform
Talend Big Data Platform
task
Qualité et préparation de données > Systèmes tiers > Composants File (Intégration) > Composants Excel
Création et développement > Systèmes tiers > Composants File (Intégration) > Composants Excel
Gouvernance de données > Systèmes tiers > Composants File (Intégration) > Composants Excel
EnrichPlatform
Studio Talend

Ces propriétés sont utilisées pour configurer le tFileInputExcel s'exécutant dans le framework de Jobs Standard.

Le composant tFileInputExcel Standard appartient à la famille File.

Le composant de ce framework est toujours disponible.

Basic settings

Property type

Peut être Built-in ou Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

 

Built-in : Propriétés utilisées ponctuellement.

 

Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant. Les champs suivants sont alors pré-remplis à l'aide des données collectées.

Cliquez sur cette icône pour ouvrir l'assistant de connexion et enregistrer les paramètres de connexion au fichier Excel que vous avez définis dans la vue Basic settings du composant.

Pour plus d'informations sur comment définir et stocker des paramètres de connexion de fichier, consultez le Guide utilisateur du Studio Talend .

Read excel2007 file format (xlsx)

Cochez cette case pour lire un fichier .xlsx d'Excel 2007.

File name/Stream

File name : Chemin d'accès et nom du fichier, et/ou variable à traiter.

Stream : Flux de données à traiter. Les données doivent préalablement être mises en flux afin d'être récupérées par le tFileInputExcel via la variable INPUT_STREAM disponible dans la liste d'auto-complétion (Ctrl+Espace).

Pour plus d'informations concernant l'utilisation et la définition de variables, consultez le Guide utilisateur du Studio Talend .

All sheets

Cochez cette case pour traiter toutes les feuilles du fichier Excel.

Sheet list

Cliquez sur le bouton [+] pour ajouter de nouvelles lignes à la liste de feuilles à traiter :

Sheet (name or position) : renseignez le nom ou la position de la feuille à traiter.

Use Regex : cochez cette case si vous utilisez une expression régulière pour filtrer les feuilles selon un modèle.

Header

Saisissez le nombre de lignes à ignorer au début du fichier.

Notez que lorsqu'un schéma dynamique est utilisé, la première ligne des données entrantes est toujours traitée comme une ligne d'en-tête, que la valeur du champ Header soit définie ou non. Pour plus d'informations concernant les schémas dynamiques, consultez le Studio Talend .

Footer

Nombre de lignes à ignorer à la fin d'un fichier.

Limit

Nombre maximum de lignes à traiter. Si Limit = 0, aucune ligne n'est lue ni traitée.

Affect each sheet(header&footer)

Cochez cette case pour appliquer les paramètres définis dans les champs Header et Footer à toutes les feuilles traitées.

Die on error

Cette case est cochée par défaut et stoppe le Job en cas d'erreur. Décochez cette case pour terminer le traitement avec les lignes sans erreurs, et ignorer les lignes en erreur. Vous pouvez récupérer les lignes en erreur, si vous le souhaitez. Pour cela, utilisez un lien Row > Reject.

First column et Last column

Renseignez l'intervalle de colonnes que vous voulez traiter : la position de la première colonne dans le champ First column et celle de la dernière colonne à traiter dans le champ Last column.

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma peut être Built-in ou distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

Ce composant offre la fonction de schéma dynamique. Cela vous permet de récupérer des colonnes inconnues à partir de fichiers source ou de copier des lots de colonnes d'une source sans avoir à mapper individuellement ces colonnes. Pour plus d'informations concernant les schémas dynamiques, consultez le Guide utilisateur du Studio Talend.

Cette fonctionnalité de schéma dynamique est conçue pour permettre de récupérer des colonnes inconnues d'une table. Il est recommandé de l'utiliser uniquement à cet effet et non pour créer des tables.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to built-in property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

Built-in : Le schéma sera créé et conservé pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend .

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé. Voir également le Guide utilisateur du Studio Talend .

Advanced settings

Advanced separator (for numbers)

Cochez cette option pour modifier les séparateurs utilisés pour les nombres :

Thousands separator : définissez le séparateur utilisé pour les milliers.

Decimal separator : définissez le séparateur utilisé pour les décimaux.

Trim all columns

Cochez cette case pour supprimer les espaces en début et en fin de champ dans les colonnes sélectionnées. Lorsque cette case est cochée, la table Check column to trim est affichée, ce qui vous permet de sélectionner les colonnes desquelles vous souhaitez enlever les espaces en début et en fin de champ.

Check column to trim

Cette table est automatiquement renseignée avec le schéma utilisé. Cochez la (les) case(s) correspondant à la (aux) colonne(s) dont vous souhaitez supprimer les espaces et début et en fin de champ.

Convert date column to string

Disponible lorsque la case Read excel2007 file format (xlsx) est cochée, dans la vue Basic settings.

Cochez cette case pour afficher la table Check need convert date column. Vous pouvez convertir les colonnes Excel contenant des dates en colonnes de type String dans le fichier de sortie, avec le modèle défini.

Column : toutes les colonnes disponibles dans le schéma du fichier source .xlsx.

Convert : cochez cette case pour choisir toutes les colonnes à convertir (si elles sont de type String). Vous pouvez également cocher la case de chaque colonne à convertir.

Date pattern : définissez le format de date.

Encoding

Sélectionnez l'encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation des données des bases de données.

Read real values for numbers

Cochez cette case pour lire les nombres en valeur réelle. Cette case est indisponible lorsque vous cochez la case Read excel2007 file format (xlsx) dans la vue Basic settings.

Stop reading on encountering empty rows

Cochez cette case pour ignorer les lignes vides, et, s'il y en a, les lignes qui suivent. Cette case est indisponible lorsque vous cochez la case Read excel2007 file format (xlsx) dans la vue Basic settings.

Generation mode

Disponible lorsque la case Read excel2007 file format (xlsx) est cochée dans la vue Basic settings. Sélectionnez le mode de lecture du fichier Excel 2007.

  • Less memory consumed for large excel(Event mode) : utilisé pour un fichier volumineux. Ce mode économise de la mémoire car il permet de lire le fichier Excel 2007 comme un flux. Lorsque ce mode est sélectionné, les données seront extraites avec le symbole du format, par exemple le symbole de pourcentage % et le symbole de devise $.

  • Memory-consuming (User mode) : utilisé pour un petit fichier. Nécessite beaucoup de mémoire. Lorsque ce mode est sélectionné, les données pures sans le symbole de format seront extraites.

Don't validate the cells

Cochez cette case pour ne pas effectuer de validation des données. Cette case est indisponible lorsque vous cochez la case Read excel2007 file format (xlsx) dans la vue Basic settings.

Ignore the warning

Cochez cette case pour ignorer les avertissements générés par des erreurs sur le fichier Excel. Cette case est indisponible lorsque vous cochez la case Read excel2007 file format (xlsx) dans la vue Basic settings.

tStatCatcher Statistics

Cochez cette case pour collecter les données de log au niveau du composant.

Global Variables

Global Variables

NB_LINE : nombre de lignes traitées. Cette variable est une variable After et retourne un entier.

CURRENT_SHEET : nom de la feuille traitée. Cette variable est une variable Flow et retourne une chaîne de caractères.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Règle d'utilisation

Utilisez ce composant pour lire un fichier Excel (.xls ou .xlsx) et séparer les champs en fonction d'un schéma défini. Ce composant permet de créer un flux de données à l'aide d'un lien Row > Main, ainsi que de créer un flux de rejet avec un lien Row > Reject filtrant les données dont le type ne correspond pas au type défini. Pour un exemple d'utilisation de ces deux liens, consultez Procédure du composant tFileInputXML.

Limitation

Du fait d'une incompatibilité de licence, un ou plusieurs Jar requis pour utiliser ce composant ne sont pas fournis. Vous pouvez installer les Jar manquants pour ce composant en cliquant sur le bouton Install dans l'onglet Component. Vous pouvez également trouver les Jar manquants et les ajouter dans l'onglet Modules de la perspective Integration de votre studio. Pour plus d'informations, consultez la page Installation de modules externes.