Propriétés du tFileInputExcel Standard - 7.3

Excel

EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement > Systèmes tiers > Composants File (Intégration) > Composants Excel
Gouvernance de données > Systèmes tiers > Composants File (Intégration) > Composants Excel
Qualité et préparation de données > Systèmes tiers > Composants File (Intégration) > Composants Excel

Ces propriétés sont utilisées pour configurer le tFileInputExcel s'exécutant dans le framework de Jobs Standard.

Le composant tFileInputExcel Standard appartient à la famille Fichier.

Le composant de ce framework est disponible dans tous les produits Talend.

Basic settings

Property type

Peut être Built-in ou Repository.

 

Built-In : propriétés utilisées ponctuellement sans stockage dans le référentiel.

 

Repository : Sélectionnez le fichier de propriétés du composant. Les champs suivants sont alors remplis automatiquement à l'aide des données collectées.

Cliquez sur cette icône pour ouvrir l'assistant connexion de base de données et enregistrer les paramètres de connexion que vous avez définis dans la vue Basic settings du composant.

Pour plus d'informations concernant la définission et la configuration des paramètres de connexion de fichiers, consultez le Guide d'utilisation du Studio Talend.

Read excel2007 file format (xlsx / xlsm)

Cochez cette case pour lire un fichier .xlsx ou .xlsm d'Excel 2007.

File name/Stream

File name : nom du fichier, et/ou variable à traiter.

Stream : flux de données à traiter. Les données doivent préalablement être ajoutées au flux afin d'être récupérées par le tFileInputExcel via la variable INPUT_STREAM disponible dans la liste d'auto-complétion (Ctrl+Espace).

Pour plus d'informations concernant l'utilisation et la définition de variables dans un Job, consultez le Guide d'utilisation du Studio Talend.

Avertissement : Utilisez un chemin absolu (au lieu d'un chemin relatif) dans ce champ pour éviter des erreurs.

Password

Saisissez le mot de passe saisi pour le fichier Excel entre guillemets doubles en cliquant sur le bouton [...] à droite du cadre.

Ce champ est applicable pour les fichiers Excel 2007 (et versions supérieures) protégés par mot de passe et est disponible lorsque l'option Read excel2007 file format(xlsx) est sélectionnée.

Ce composant supporte le chiffrement standard et agile.

All sheets

Cochez cette case pour traiter toutes les feuilles du fichier Excel.

Sheet list

Cliquez sur le bouton [+] pour ajouter de nouvelles lignes à la liste de feuilles à traiter :

Sheet (name or position) : renseignez le nom ou la position de la feuille à traiter.

Use Regex : cochez cette case si vous utilisez une expression régulière pour filtrer les feuilles à traiter.

Header

Saisissez le nombre de lignes à ignorer au début du fichier.

Notez que lorsqu'un schéma dynamique est utilisé, la première ligne des données entrantes est toujours traitée comme une ligne d'en-tête, que la valeur du champ Header soit définie ou non. Pour plus d'informations concernant les schémas dynamiques, consultez le Guide d'utilisation du Studio Talend.

Footer

Nombre de lignes à ignorer à la fin d'un fichier.

Limit

Nombre maximum de lignes à traiter.

Affect each sheet(header&footer)

Cochez cette case pour appliquer les paramètres définis dans les champs Header et Footer à toutes les feuilles Excel traitées.
Remarque : Cette option est disponible uniquement lorsque vous sélectionnez Memory-consuming (User mode) dans la liste déroulante Generation mode de la vue Advanced settings.

Die on error

Cochez cette case pour arrêter l'exécution du Job lorsqu'une erreur survient. Décochez-la pour ignorer les lignes en erreur et terminer le processus avec les lignes sans erreur. Si nécessaire, vous pouvez récupérer les lignes en erreur en utilisant un lien de type Row > Reject.

First column et Last column

Renseignez l'intervalle de colonnes que vous voulez traiter : la position de la première colonne dans le champ First column et celle de la dernière colonne à traiter dans le champ Last column.

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma est soit local (Built-in), soit distant dans le Repository.

Ce composant offre la fonction de schéma dynamique. Cela vous permet de récupérer des colonnes inconnues de fichiers sources ou de copier des lots de colonnes d'une source sans avoir à mapper chaque colonne individuellement. Pour plus d'informations concernant la définition des schémas dynamiques, consultez le Guide d'utilisation du Studio Talend.

Cette fonctionnalité de schéma dynamique est conçue pour permettre de récupérer des colonnes inconnues d'une table. Il est recommandé de l'utiliser uniquement à cet effet et non pour créer des tables.

Modifiez le schéma en cliquant sur Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir uniquement le schéma.

  • Change to built-in property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre Repository Content.

 

Built-in : le schéma est créé et conservé pour ce composant uniquement. Scénario associé : consultez le Guide d'utilisation du Studio Talend.

 

Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans divers projets et Jobs. Scénario associé : consultez le Guide d'utilisation du Studio Talend.

Advanced settings

Advanced separator

Cochez cette option pour modifier les séparateurs utilisés pour les données :

Trim all columns

Cochez cette case pour supprimer les espaces en début et fin de toutes les colonnes. Lorsque cette case est cochée, la table Check column to trim est affichée, ce qui vous permet de sélectionner les colonnes desquelles vous souhaitez enlever les espaces en début et en fin de champ.

Check column to trim

Cette table est automatiquement renseignée avec le schéma utilisé. Cochez la (les) case(s) correspondant à la (aux) colonne(s) dont vous souhaitez supprimer les espaces en début et en fin de champ.

Convert date column to string

Disponible lorsque la case Read excel2007 file format (xlsx) est cochée dans la vue Basic settings.

Cochez cette case pour afficher la table Check need convert date column. Vous pouvez convertir les colonnes Excel contenant des dates en colonnes de type String dans le fichier de sortie, avec le modèle défini.

Column : toutes les colonnes disponibles dans le schéma du fichier source .xlsx.

Convert : cochez cette case pour choisir toutes les colonnes à convertir (si elles sont toutes de type String). Vous pouvez également cocher la case de chaque colonne à convertir.

Date pattern : définissez le format de date.

Encoding

Sélectionnez l'encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation de données dans des bases de données.

Read real values for numbers

Cochez cette case pour lire les nombres en valeur réelle. Cette case est indisponible lorsque vous cochez la case Read excel2007 file format (xlsx) dans la vue Basic settings.

Stop reading on encountering empty rows

Cochez cette case pour ignorer les lignes vides, et, s'il y en a, les lignes qui suivent. Cette case est indisponible lorsque vous cochez la case Read excel2007 file format (xlsx) dans la vue Basic settings.

Generation mode

Disponible lorsque la case Read excel2007 file format (xlsx) est cochée dans la vue Basic settings. Sélectionnez le mode de lecture du fichier Excel 2007.

  • Less memory consumed for large excel(Event mode) : à utiliser pour un fichier volumineux. Ce mode économise de la mémoire car il permet de lire le fichier Excel 2007 comme un flux. Cette option permet d'éviter les échecs du Job liés à des erreurs de dépassement de mémoire causé par une consommation élevée de mémoire lors de la lecture de fichiers Excel volumineux.

    Lorsque ce mode est sélectionné, les données seront extraites avec le symbole du format, par exemple le symbole de pourcentage % et le symbole de devise $. De plus, la case Include phonetic runs est cochée par défaut pour vous permettre d'utiliser des chaînes de caractères phonétiques à l'index.

  • Memory-consuming (User mode) : à utiliser pour un petit fichier. Nécessite beaucoup de mémoire. Lorsque ce mode est sélectionné, les données pures sans le symbole de format seront extraites.

Don't validate the cells

Cochez cette case pour ne pas effectuer de validation des données. Cette case est indisponible lorsque vous cochez la case Read excel2007 file format (xlsx) dans la vue Basic settings.

Ignore the warning

Cochez cette case pour ignorer les avertissements générés par des erreurs sur le fichier Excel. Cette case est indisponible lorsque vous cochez la case Read excel2007 file format (xlsx) dans la vue Basic settings.

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de traitement du Job au niveau du Job ainsi qu'au niveau de chaque composant.

Variables globales

Global Variables

NB_LINE : nombre de lignes traitées. Cette variable est une variable After et retourne un entier.

CURRENT_SHEET : nom de la feuille traitée. Cette variable est une variable Flow et retourne une chaîne de caractères.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide d'utilisation du Studio Talend .

Utilisation

Règle d'utilisation

Utilisez ce composant pour lire un fichier Excel (.xls ou .xlsx) et séparer les champs en fonction d'un schéma défini. Utilisez un lien Row > Reject pour filtrer les données dont le type ne correspond pas à celui défini. Pour un exemple d'utilisation de ces deux liens, consultez Procédure.

Limitation

Du fait d'une incompatibilité de licence, un ou plusieurs Jar requis pour utiliser ce composant ne sont pas fournis. Vous pouvez installer les Jar manquants pour ce composant en cliquant sur le bouton Install dans l'onglet Component. Vous pouvez également trouver les Jar manquants et les ajouter dans l'onglet Modules de la perspective Integration de votre Studio. Pour plus d'informations, consultez la page Installation de modules externes.