Création du Job - 6.2

Talend Big Data Platform Studio Guide utilisateur

EnrichVersion
6.2
EnrichProdName
Talend Big Data Platform
task
Création et développement
Qualité et préparation de données
EnrichPlatform
Studio Talend

Pour créer ce Job, vous devez effectuer les quatre étapes suivantes :

  1. Création du Job, configuration du schéma d'entrée et lecture du fichier d'entrée selon le schéma défini.

  2. Définition de la commande activant la fonctionnalité de flux de sortie.

  3. Mapping des données via le composant tMap.

  4. Ecriture en sortie du flux de données sélectionné.

Vous pouvez voir le Job terminé dans la capture d'écran ci-dessous. Pour consulter les instructions détaillées relatives à la création du Job, lisez les sections suivantes.

Étape 1 : Lire les données d'entrée d'un fichier local

Utilisez le composant tFileInputDelimited pour lire le fichier customers.csv contenant les données d'entrée. Ce composant se trouve dans la famille File/Input de la Palette. Cliquez sur ce puis déposez-le dans l'espace de modélisation graphique.

  1. Double-cliquez sur le composant tFileInputDelimited afin d'ouvrir sa vue Basic settings et définir ses propriétés de base.

  2. Cliquez sur le bouton [...] à côté du champ File name/Stream et parcourez votre système jusqu'à votre fichier d'entrée. Vous pouvez également saisir manuellement le chemin d'accès à ce fichier.

  3. Cliquez sur Edit schema pour ouvrir une boîte de dialogue dans laquelle configurer la structure du fichier d'entrée.

  4. Cliquez six fois sur le bouton [+] pour ajouter six colonnes, puis, dans la colonne Type, sélectionnez Integer pour les colonnes id et CustomerAge, String pour les colonnes CustomerName, CustomerAddress et CustomerCity. Sélectionnez Date pour la colonne RegisterTime.

  5. Cliquez sur OK pour fermer la boîte de dialogue.

Étape 2 : Configurer la commande pour activer la fonctionnalité Output Stream

Utilisez le tJava pour définir la commande de création d'un fichier de sortie et un répertoire contenant le fichier de sortie.

Pour ce faire, déposez un composant tJava dans l'espace de modélisation graphique.

  1. Double-cliquez sur le tJava pour ouvrir sa vue Basic settings et définir ses propriétés.

  2. Dans le champ Code, saisissez la commande suivante :

    new java.io.File("C:/myFolder").mkdirs();

    globalMap.put("out_file",new java.io.FileOutputStream("C:/myFolder/customerselection.txt",false));

    Note

    La commande saisie ci-dessus créé un nouveau répertoire C:/myFolder pour sauvegarder le fichier de sortie customerselection.txt. Vous pouvez personnaliser la commande selon vos besoins.

  3. Reliez le tJava au tFileInputDelimited à l'aide d'un lien Trigger > On Subjob Ok. Cela déclenche le sous-job commençant par le tFileInputDelimited lorsque le tJava est correctement exécuté.

Étape 3 : Mapper les données à l'aide du composant tMap

Déposez un composant tMap dans l'espace de modélisation graphique.

  1. Double-cliquez sur le tMap afin d'afficher sa vue Basic settings et configurer ses propriétés de base.

  2. Cliquez sur le bouton [...] à côté du Map Editor pour ouvrir une boîte de dialogue dans laquelle configurer le mapping.

  3. Cliquez sur le bouton [+] de gauche pour ajouter six colonnes au schéma d'entrée, ces colonnes devant être id, CustomerName, CustomerAge, CustomerAddress, CustomerCity, RegisterTime.

  4. Cliquez sur le bouton [+] à droite pour ajouter un schéma de sortie.

  5. Sélectionnez New output et cliquez sur OK pour sauvegarder votre schéma de sortie. Le schéma de sortie est vide.

  6. Cliquez sur le bouton [+] sous la table out1 pour ajouter trois colonnes aux données de sortie.

  7. Déposez les colonnes id, CustomerName et CustomerAge de la gauche à la droite, dans leurs lignes respectives.

  8. Cliquez sur OK pour sauvegarder les paramètres.

Étape 4 : Ecrire en sortie le flux de données sélectionné

Déposez un composant tFileOutputDelimited dans l'espace de modélisation graphique.

  1. Double-cliquez sur le tFileOutputDelimited afin d'ouvrir sa vue Basic settings et configurer ses propriétés de base.

  2. Cochez la case Use Output Stream pour activer le champ Output Stream et saisissez dans le champ Output Stream la commande suivante :

    (java.io.OutputStream)globalMap.get("out_file")

    Note

    Vous pouvez personnaliser la commande dans le champ Output Stream en appuyant sur les touches Ctrl+Espace pour utiliser l'autocomplétion et sélectionner des commandes built-in. Vous pouvez également saisir manuellement votre commande. Dans ce scénario, la commande utilisée dans le champ Output Stream appelle la classe java.io.OutputStream pour écrire le flux de données filtré dans un fichier local, spécifié dans la zone Code du tJava.

  3. Reliez le tFileInputDelimited au tMap à l'aide d'un lien Row > Main puis reliez le tMap au tFileOutputDelimited à l'aide du lien Row > out1, défini dans le Map Editor du tMap.

  4. Cliquez sur le bouton Sync columns pour récupérer le schéma du composant précédent.

Pour écrire dans la console les données sélectionnées :

  1. Déposez un tLogRow de la famille Logs & Errors dans l'espace de modélisation graphique. Double-cliquez sur ce composant afin d'ouvrir sa vue Basic settings

  2. Sélectionnez l'option Table dans la zone Mode.

  3. Reliez le tFileOutputDelimited au tLogRow à l'aide d'un lien Row > Main.

  4. Cliquez sur Sync columns pour récupérer le schéma défini dans le composant précédent.

Ce Job est maintenant prêt à être exécuté.

Appuyez sur les touches Ctrl+S afin de sauvegarder votre Job et appuyez sur F6 pour l'exécuter.

Le contenu de données sélectionnées s'affiche dans la console.

Les données sélectionnées sont également écrites dans le fichier local customerselection.txt.

Pour un exemple de Job utilisant cette fonctionnalité, consultez le composant tFileOutputDelimited du Guide de référence des Composants Talend.

Pour consulter les principes de la fonctionnalité Use Output Stream, consultez Utiliser la fonctionnalité Use Output Stream.