tFileInputARFF - 6.1

Composants Talend Open Studio Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Propriétés du tFileInputARFF

Famille du composant

File/Input

 

Fonction

Le composant tFileInputARFF lit un fichier ARFF ligne à ligne et sépare des champs simples.

Objectif

Ce composant ouvre un fichier et le lit ligne par ligne afin de le diviser en champs et d'envoyer ces champs au composant suivant, comme défini par le schéma, via une connexion Row.

Basic settings

Property type

Peut être Built-in ou Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

 

 

Built-in : Propriétés utilisées ponctuellement.

 

 

Repository : Sélectionnez le fichier de propriétés du composant. Les champs suivants sont alors pré-remplis à l'aide des données collectées.

 

Cliquez sur cette icône pour ouvrir l'assistant connexion de base de données et enregistrer les paramètres de connexion que vous avez définis dans la vue Basic settings du composant.

Pour plus d'informations sur comment définir et stocker des paramètres de connexion de base de données, consultez le Guide utilisateur du Studio Talend.

 

File Name

Chemin d'accès et nom du fichier, et/ou variable à traiter.

Pour plus d'informations concernant l'utilisation et la définition de variables, consultez le Guide utilisateur du Studio Talend.

 

Schema et Edit Schema

Un schéma est une description de lignes, il définit le nombre de champs qui sont traités et passés au composant suivant. Le schéma peut être Built-in ou distant dans le Repository.

Depuis la version 5.6, les modes Built-In et Repository sont disponibles dans toutes les solutions de Talend.

Cliquez sur Edit schema pour modifier le schéma. Si le schéma est en mode Repository, trois options sont disponibles :

  • View schema : sélectionnez cette option afin de voir le schéma.

  • Change to Built-In property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

  • Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs. Si vous souhaitez propager les modifications uniquement au Job courant, sélectionnez No et sélectionnez à nouveau la métadonnée du schéma dans la fenêtre [Repository Content].

 

 

Built-in : Le schéma sera créé et conservé pour ce composant seulement. Voir également le Guide utilisateur du Studio Talend.

 

 

Repository : Le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans divers projets et Jobs. Voir également le Guide utilisateur du Studio Talend.

Advanced settings

Encoding

Sélectionnez l'encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation des données de base de données.

 

tStatCatcher Statistics

Cochez cette case pour collecter les informations de log au niveau du composant.

Global Variables

NB_LINE : nombre de lignes traitées. Cette variable est une variable After et retourne un entier.

ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, si le composant a cette option.

Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant.

Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. A partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser.

Pour plus d'informations concernant les variables, consultez le Guide utilisateur du Studio Talend.

Utilisation

Utilisez ce composant pour lire un fichier et séparer les champs à l'aide du séparateur spécifié.

Log4j

Si vous utilisez une solution Talend soumise à souscription, l'activité de ce composant peut être journalisée avec la fonctionnalité log4j. Pour plus d'informations sur cette fonctionnalité, consultez le Guide utilisateur du Studio Talend.

Pour plus d'informations sur les niveaux de logs du log4j, consultez la documentation d'Apache : http://logging.apache.org/log4j/1.2/apidocs/org/apache/log4j/Level.html (en anglais).

Limitation

Du fait d'une incompatibilité de licence, un ou plusieurs Jar requis pour utiliser ce composant ne sont pas fournis. Vous pouvez installer les Jar manquants pour ce composant en cliquant sur le bouton Install dans l'onglet Component. Vous pouvez également trouver les Jar manquants et les ajouter dans l'onglet Modules de la perspective Integration de votre studio. Pour plus d'informations, consultez la page https://help.talend.com/display/KB/How+to+install+external+modules+in+the+Talend+products (en anglais) ou la section décrivant comment configurer le studio, dans le Guide d'installation et de migration Talend.

Scénario : Afficher le contenu d'un fichier ARFF

Le scénario suivant décrit un Job formé de deux composants ayant pour objectif de lire ligne à ligne un fichier ARFF, de sélectionner des données délimitées et d'afficher la sortie dans la console de la vue Run.

Un fichier ARFF se présente comme suit :

Un fichier ARFF est généralement composé de deux parties : la description de la structure des données, correspondant aux lignes qui débutent par @attribute, et les données brutes, qui suivent l'expression @data.

Déposer et relier les composants

  1. Glissez et déposez le composant tFileInputARFF de la Palette dans l'espace de modélisation graphique.

  2. Glissez et déposez de la même manière le composant tLogRow

  3. Cliquez-droit sur le composant tFileInputARFF et sélectionnez Row > Main dans le menu contextuel. Glissez ce lien vers le tLogRow et relâchez lorsque le symbole de prise de courant apparaît. La transmission du flux de donnée entre les deux composants est ainsi établie.

Configurer les composants

  1. Double-cliquez sur le tFileInputARFF pour paramétrer ce composant.

  2. Dans la vue Component, renseignez le champ File Name. Parcourez votre répertoire de fichiers, afin de sélectionner le fichier .arff.

  3. Dans le champ Schema, sélectionnez Built-In.

  4. Cliquez sur le bouton [...] du champ Edit schema, pour effectuer manuellement la description des colonnes du fichier lu.

  5. Cliquez autant de fois sur le bouton  que nécessaire pour décrire chacune des colonnes du fichier lu. Dans cet exemple, 17 colonnes sont ajoutées, nommez-les comme suit :

  6. Pour chacune des colonnes sélectionnez le Type : chaîne de caractères (String).

  7. Cliquez sur OK.

  8. Dans l'espace de modélisation, double-cliquez sur le composant tLogRow pour afficher sa vue Component.

  9. Cliquez sur le bouton [...] du champ Edit schema pour vérifier que le schéma a bien été propagé. Si ce n'est pas le cas, cliquez sur le bouton Sync columns.

Sauvegarder et exécuter le Job

  1. Appuyez sur les touches Ctrl+S pour sauvegarder votre Job.

  2. Appuyez sur F6 pour l'exécuter.

La console affiche les données contenues dans le fichier ARFF délimitées par une barre verticale (séparateur par défaut).