Étape 1 : Création du Job, définition des données d'entrée, lecture du fichier - 7.1

Exemples de Jobs d'intégration de données

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement > Création de Jobs
EnrichPlatform
Studio Talend

Procédure

  1. Après avoir lancé le Studio Talend, créez un projet en local ou importez un projet démo si vous lancez le Studio Talend pour la première fois.
  2. Pour créer le Job, cliquez-droit sur Job Designs dans le Repository et sélectionnez Create Job.
  3. Dans la boîte de dialogue qui s'ouvre, seul le premier champ (Name) est requis. Saisissez California1 et cliquez sur Finish.

    Un Job vide s'ouvre ensuite dans la fenêtre principale et la Palette de composants techniques apparaît (par défaut, à droite du Studio) affichant une dizaine de familles de composants, notamment : Databases, Files, Internet, Data Quality, des centaines de composants sont disponibles.

  4. Pour lire le fichier California_Clients, utilisez le composant tFileInputDelimited. Ce composant se trouve dans la famille File > Input de la Palette. Cliquez sur ce composant et placez-le à la gauche de l'espace de modélisation.
  5. Définissez maintenant les propriétés de lecture de ce composant : chemin d'accès, séparateur de colonnes, encodage, etc. Pour ce faire, utilisez le Metadata Manager. Cet outil possède de nombreux assistants qui vous aideront à définir les paramètres nécessaires et vous permettront de conserver ces propriétés qui pourront être réutilisées en un seul clic dans de futurs Jobs.
  6. Puisque votre fichier d'entrée est un fichier plat délimité, cliquez sur File Delimited dans la liste du fichier Metadata de la vue Repository. Sélectionnez l'option Create file delimited.

    L'assistant spécifique aux fichiers délimités s'ouvre :

    • Dans l'étape 1, seul le champ Name est requis : A l'étape 1, seul le champ Name est obligatoire : saisissez le nom California_clients et passez à l'étape suivante.

    • A l'étape 2, sélectionnez le fichier d'entrée (California_Clients.csv) via le bouton Browse.... Un extrait du fichier apparaît immédiatement dans la zone File viewer en bas de l'assistant, afin que vous puissiez en vérifier le contenu. Cliquez sur Next.

    • A l'étape 3, nous définirons les paramètres de fichiers suivants : encodage des fichiers, délimitations de lignes et de colonnes... Puisque votre fichier d'entrée est standard, vous pouvez garder la plupart des valeurs par défaut. La première ligne de votre fichier est un en-tête contenant les noms des colonnes. Pour récupérer automatiquement ces noms, cochez la case Set heading row as column names et cliquez sur Refresh Preview. Cliquez sur Next pour passer à l'étape suivante.

    • A l'étape 4, définissez chaque colonne de votre fichier. L'assistant intègre des algorithmes qui essayent de deviner le type et la longueur des données contenues dans les colonnes du fichier en analysant les premières lignes. La description des données (appelé schéma dans le Studio Talend) peut être modifiée à tout moment. Pour ce scénario particulier, ces informations peuvent être gardées telles quelles.

    La métadonnée California_clients est maintenant définie.

    Vous pouvez donc l'utiliser dans votre composant d'entrée. Sélectionnez le composant tFileInputDelimited que vous avez déposé dans l'espace de modélisation et sélectionnez la vue Component Settings dans le bas de la fenêtre.

  7. Sélectionnez l'onglet vertical Basic settings. Dans cet onglet, vous trouverez toutes les propriétés techniques nécessaires au composant. Au lieu de les saisir une à une, utilisez la métadonnée que vous venez de créer.
  8. Sélectionnez Repository dans la liste déroulante Property type. Un champ Repository apparaît. Cliquez sur le bouton [...] et sélectionnez la métadonnée correspondante dans la liste California_clients.

    Notez que tous les paramètres sont automatiquement renseignés.

    A cette étape, terminez votre flux en envoyant tout simplement les données lues dans le fichier d'entrée vers une sortie standard (StdOut).

  9. Pour ce faire, ajoutez un composant tLogRow (de la famille Logs & Errors). Pour lier ces deux composants, cliquez-droit sur le composant d'entrée et sélectionnez Row > Main. Puis cliquez sur le composant de sortie tLogRow.
  10. Ce Job est maintenant prêt à être exécuté. Pour l'exécuter, sélectionnez la vue Run dans le bas de la fenêtre.
  11. Activez les statistiques en cochant la case Statistics dans l'onglet Advanced settings de la vue Run, puis exécutez le Job en cliquant sur le bouton Run, dans l'onglet Basic Run.

    Le contenu du fichier d'entrée apparaît dans la console de la vue Run.