Propriétés du tFileInputExcel Standard - Cloud - 8.0

Excel

Version
Cloud
8.0
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Systèmes tiers > Composants File (Intégration) > Composants Excel
Gouvernance de données > Systèmes tiers > Composants File (Intégration) > Composants Excel
Qualité et préparation de données > Systèmes tiers > Composants File (Intégration) > Composants Excel
Last publication date
2024-02-21

Ces propriétés sont utilisées pour configurer le tFileInputExcel s'exécutant dans le framework de Jobs Standard.

Le composant tFileInputExcel Standard appartient à la famille Fichier.

Le composant de ce framework est disponible dans tous les produits Talend.

Basic settings

Property type

Peut être Built-in ou Repository.

  • Built-In : propriétés utilisées ponctuellement sans stockage dans le référentiel.

  • Repository : Sélectionnez le fichier de propriétés du composant. Les champs suivants sont alors remplis automatiquement à l'aide des données collectées.

Cliquez sur cette icône pour ouvrir l'assistant connexion de base de données et enregistrer les paramètres de connexion que vous avez définis dans la vue Basic settings du composant.

Pour plus d'informations concernant la configuration et le stockage des paramètres de connexion à un fichier, consultez Configurer les paramètres de connexion.

Read excel2007 file format (xlsx)

Cochez cette case pour lire un fichier .xlsx ou .xlsm d'Excel 2007.

File name/Stream

File name : nom du fichier, et/ou variable à traiter.

Stream : flux de données à traiter. Les données doivent préalablement être ajoutées au flux afin d'être récupérées par le tFileInputExcel via la variable INPUT_STREAM disponible dans la liste d'auto-complétion (Ctrl+Espace).

Pour plus d'informations concernant la définition et l'utilisation d'une variable dans un Job, consultez Utiliser des variables dans un Job ou une Route.

Avertissement : Utilisez un chemin absolu (au lieu d'un chemin relatif) dans ce champ pour éviter des erreurs.

Password

Saisissez entre guillemets doubles le mot de passe configuré pour le fichier Excel en cliquant sur le bouton [...] près de ce cadre.

Ce champ est applicable pour les fichiers Excel 2007 (et versions supérieures) protégés par mot de passe et est disponible lorsque l'option Read excel2007 file format(xlsx) est sélectionnée.

Ce composant supporte le chiffrement standard et agile.

All sheets

Cochez cette case pour traiter toutes les feuilles du fichier Excel.

Sheet list

Cliquez sur le bouton [+] pour ajouter de nouvelles lignes à la liste de feuilles à traiter :

Sheet (name or position) : renseignez le nom ou la position de la feuille à traiter.

Use Regex : cochez cette case si vous utilisez une expression régulière pour filtrer les feuilles à traiter.

Header

Saisissez le nombre de lignes à ignorer au début du fichier.

Notez que lorsqu'un schéma dynamique est utilisé, la première ligne des données entrantes est toujours traitée comme une ligne d'en-tête, que la valeur du champ Header soit définie ou non. Pour plus d'informations concernant le schéma dynamique, consultez Schéma dynamique.

Footer

Nombre de lignes à ignorer à la fin d'un fichier.

Limit

Nombre maximum de lignes à traiter.

Affect each sheet(header&footer)

Cochez cette case pour appliquer les paramètres définis dans les champs Header et Footer à toutes les feuilles Excel traitées.
Remarque : Cette option est disponible uniquement lorsque vous sélectionnez Memory-consuming (User mode) dans la liste déroulante Generation mode de la vue Advanced settings.

Die on error

Cochez cette case pour arrêter l'exécution du Job lorsqu'une erreur survient. Décochez-la pour ignorer les lignes en erreur et terminer le processus avec les lignes sans erreur. Si nécessaire, vous pouvez récupérer les lignes en erreur en utilisant un lien de type Row > Reject.

First column et Last column

Renseignez l'intervalle de colonnes que vous voulez traiter : la position de la première colonne dans le champ First column et celle de la dernière colonne à traiter dans le champ Last column.

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champ qui sont traités et passés au composant suivant. Le schéma est soit local (Built-in), soit distant dans le Repository.

  • Built-in : le schéma est créé et conservé pour ce composant uniquement.
  • Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans divers projets et Jobs.

Ce composant offre la fonction de schéma dynamique. Cela vous permet de récupérer des colonnes inconnues de fichiers sources ou de copier des lots de colonnes d'une source sans avoir à mapper chaque colonne individuellement. Pour plus d'informations concernant les schémas dynamiques, consultez Schéma dynamique.

Cette fonctionnalité de schéma dynamique est conçue pour permettre de récupérer des colonnes inconnues d'une table. Il est recommandé de l'utiliser uniquement à cet effet et non pour créer des tables.

Remarque : Si vous utilisez la fonctionnalité de schéma dynamique, assurez-vous que le modèle de date est configuré pour la colonne dynamique dans le champ Date Pattern, dans l'éditeur de schéma. Le modèle de date par défaut pour la colonne dynamique est "dd-MM-yyyy".

Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir uniquement le schéma.

  • Change to built-in property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs.

    Si vous souhaitez propager les modifications uniquement au Job courant, cliquez sur No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre Repository Content.

Paramètres avancés

Advanced separator

Cochez cette option pour modifier les séparateurs utilisés pour les données :

Trim all columns

Cochez cette case pour supprimer les espaces en début et fin de toutes les colonnes. Lorsque cette case est cochée, la table Check column to trim est affichée, ce qui vous permet de sélectionner les colonnes desquelles vous souhaitez enlever les espaces en début et en fin de champ.

Check column to trim

Cette table est automatiquement renseignée avec le schéma utilisé. Cochez la (les) case(s) correspondant à la (aux) colonne(s) dont vous souhaitez supprimer les espaces en début et en fin de champ.

Convert date column to string

Disponible lorsque la case Read excel2007 file format (xlsx) est cochée dans la vue Basic settings.

Cochez cette case pour afficher la table Check need convert date column. Vous pouvez convertir les colonnes Excel contenant des dates en colonnes de type String dans le fichier de sortie, avec le modèle défini.

Column : toutes les colonnes disponibles dans le schéma du fichier source .xlsx.

Convert : cochez cette case pour choisir toutes les colonnes à convertir (si elles sont toutes de type String). Vous pouvez également cocher la case de chaque colonne à convertir.

Date pattern : définissez le format de date.

Encoding

Sélectionnez l'encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation de données dans des bases de données.

Read real values for numbers

Cochez cette case pour lire les nombres en valeur réelle. Cette case est indisponible lorsque vous cochez la case Read excel2007 file format (xlsx) dans la vue Basic settings.

Stop reading on encountering empty rows

Cochez cette case pour ignorer les lignes vides, et, s'il y en a, les lignes qui suivent. Cette case est indisponible lorsque vous cochez la case Read excel2007 file format (xlsx) dans la vue Basic settings.

Generation mode

Disponible lorsque la case Read excel2007 file format (xlsx) est cochée dans la vue Basic settings. Sélectionnez le mode de lecture du fichier Excel 2007.

  • Less memory consumed for large excel(Event mode) : à utiliser pour un fichier volumineux. Ce mode économise de la mémoire car il permet de lire le fichier Excel 2007 comme un flux. Cette option permet d'éviter les échecs du Job liés à des erreurs de dépassement de mémoire causé par une consommation élevée de mémoire lors de la lecture de fichiers Excel volumineux.

    Lorsque ce mode est sélectionné, les variables de référence seront extraites avec le symbole du format, par exemple le symbole de pourcentage % et le symbole de devise $. De plus, la case Include phonetic runs est cochée par défaut pour vous permettre d'utiliser des chaînes de caractères phonétiques à l'index. L'objectif principal du mode Event (Événement) est d'économiser de la mémoire et du temps du processeur, en perdant le format des cellules.

  • Memory-consuming (User mode) : à utiliser pour un petit fichier. Nécessite beaucoup de mémoire. Lorsque ce mode est sélectionné, les données pures sans le symbole de format seront extraites.

Don't validate the cells

Cochez cette case pour ne pas effectuer de validation des données. Cette case est indisponible lorsque vous cochez la case Read excel2007 file format (xlsx) dans la vue Basic settings.

Ignore the warning

Cochez cette case pour ignorer les avertissements générés par des erreurs sur le fichier Excel. Cette case est indisponible lorsque vous cochez la case Read excel2007 file format (xlsx) dans la vue Basic settings.

Set minimum inflation rate

Sélectionnez cette option pour configurer le ratio entre les octets compressés et décompressés afin de détecter des bombes de décompression. Saisissez le nouveau taux d'inflation manimal dans le champ de texte qui s'affiche. Consultez setMinInflateRatio sur https://poi.apache.org/apidocs/dev/org/apache/poi/openxml4j/util/ZipSecureFile.html pour plus d'informations (en anglais).

Un taux d'inflation minimal incorrect peut conduire à une exception Zip bomb detected lorsque vous tentez d'ouvrir un fichier Excel. Vous pouvez éliminer les exceptions de ce type en configurant le taux minimal d'inflation à une valeur inférieure.

Cette option est disponible lorsque vous cochez la case Read excel2007 file format (xlsx) dans la vue Basic settings.

Remarque : Cette option est disponible uniquement si vous avez installé la mise à jour mensuelle 8.0.1-R2022-10 du Studio Talend ou une plus récente fournie par Talend. Pour plus d'informations, contactez votre administrateur ou administratrice.

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de traitement du Job au niveau du Job ainsi qu'au niveau de chaque composant.

Variables globales

Variables globales

NB_LINE : nombre de lignes traitées. Cette variable est une variable After et retourne un entier.

CURRENT_SHEET : nom de la feuille traitée. Cette variable est une variable Flow et retourne une chaîne de caractères.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez Utiliser les contextes et les variables.

Utilisation

Règle d'utilisation

Utilisez ce composant pour lire un fichier Excel (.xls ou .xlsx) et séparer les champs en fonction d'un schéma défini. Utilisez un lien Row > Reject pour filtrer les données dont le type ne correspond pas à celui défini. Pour un exemple d'utilisation de ces deux liens, consultez Procédure.

Limitation

Du fait d'une incompatibilité de licence, un ou plusieurs Jar requis pour utiliser ce composant ne sont pas fournis. Vous pouvez installer les Jar manquants pour ce composant en cliquant sur le bouton Install dans l'onglet Component. Vous pouvez également trouver les JAR manquants et les ajouter dans l'onglet Modules de la perspective Integration de votre Studio Talend. Pour plus d'informations, consultez la page Installation de modules externes.