Étape 1 : Création du Job, définition des données d'entrée, lecture du fichier - 7.3

Exemples de Jobs d'intégration de données

Version
7.3
Language
Français
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Création de Jobs
Last publication date
2024-02-13

Procédure

  1. Après avoir lancé le Studio Talend, créez un projet en local ou importez un projet démo si vous lancez le Studio Talend pour la première fois.
  2. Pour créer le Job, cliquez-droit sur Job Designs dans le Repository et sélectionnez Create Job.
  3. Dans la boîte de dialogue qui s'ouvre, seul le premier champ (Name) est requis. Saisissez California1 et cliquez sur Finish.

    Un Job vide s'ouvre ensuite dans la fenêtre principale et la Palette de composants techniques apparaît (par défaut, à droite du Studio) affichant une dizaine de familles de composants, notamment : Databases, Files, Internet, Data Quality, des centaines de composants sont disponibles.

  4. Un composant tFileInputDelimited est utilisé pour lire le fichier California_Clients. Ce composant se trouve dans la famille File > Input de la Palette. Cliquez sur ce composant et placez-le à la gauche de l'espace de modélisation.
  5. Configurez les propriétés de lecture du composant tFileInputDelimited (comme le chemin d'accès au fichier, le séparateur de colonnes...) à l'aide du Metadata Manager. Cet outil offre de nombreux assistants pour la configuration des paramètres. Il stocke également ces propriétés pour une utilisation ultérieure en un clic dans de futurs Jobs.
  6. Puisque votre fichier d'entrée est un fichier plat délimité, sélectionnez File Delimited dans la liste du dossier Metadata de la vue Repository. Sélectionnez l'option Create file delimited.

    L'assistant spécifique aux fichiers délimités s'ouvre.

    • Dans l'étape 1, seul le champ Name est requis : A l'étape 1, seul le champ Name est obligatoire : saisissez le nom California_clients et passez à l'étape suivante.

    • À l'étape 2, sélectionnez le fichier d'entrée (California_Clients.csv) en cliquant sur le bouton Browse.... Un extrait du fichier apparaît immédiatement dans la zone File viewer en bas de l'assistant, afin que vous puissiez en vérifier le contenu. Cliquez sur Next (Suivant).

      Dans cet exemple, le fichier California_Clients.csv est stocké dans C:/talend/Input.

    • À l'étape 3, définissez les paramètres de fichier : encodage des fichiers, délimitations de lignes et de colonnes, entre autres. Puisque le fichier d'entrée est standard, vous pouvez garder la plupart des valeurs par défaut. La première ligne de votre fichier est un en-tête contenant les noms des colonnes. Pour récupérer automatiquement ces noms, cochez la case Set heading row as column names et cliquez sur Refresh Preview, puis sur Next.

    • A l'étape 4, définissez chaque colonne de votre fichier. L'assistant intègre des algorithmes qui essayent de deviner le type et la longueur des données contenues dans les colonnes du fichier en analysant les premières lignes. La description des données (appelé schéma dans le Studio Talend) peut être modifiée à tout moment. Dans ce scénario, les données peuvent être utilisées sans modification.

    La métadonnée California_clients est créée après les quatre étapes ci-dessus.

  7. Sélectionnez le composant tFileInputDelimited que vous avez déposé dans l'espace de modélisation graphique et sélectionnez la vue Component au bas de la fenêtre.
  8. Sélectionnez l'onglet vertical Basic settings. Dans cet onglet, vous trouverez toutes les propriétés techniques nécessaires au composant.
  9. Sélectionnez Repository dans la liste déroulante Property type. Un champ Repository s'affiche. Cliquez sur le bouton [...] et sélectionnez la métadonnée correspondante dans la liste : California_clients.

    Tous les paramètres du tFileInputDelimited sont automatiquement renseignés.

  10. Ajoutez un composant tLogRow (de la famille Logs & Errors). Pour lier ces deux composants, cliquez-droit sur le composant d'entrée et sélectionnez Row > Main. Puis cliquez sur le composant de sortie tLogRow.
  11. Sélectionnez l'onglet Run dans le panneau inférieur.
  12. Activez les statistiques en cochant la case Statistics dans l'onglet Advanced settings de la vue Run, puis exécutez le Job en cliquant sur le bouton Run, dans l'onglet Basic Run.

    Le contenu du fichier d'entrée est affiché dans la console.