Scénario : Effectuer une boucle sur un répertoire HDFS - 6.1

Composants Talend Guide de référence

EnrichVersion
6.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for Data Quality
Talend Open Studio for ESB
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
task
Création et développement
Gouvernance de données
Qualité et préparation de données
EnrichPlatform
Studio Talend

Ce scénario présente un Job à deux composants itérant un répertoire spécifié dans HDFS afin de sélectionner les fichiers et les déplacer vers un répertoire local.

Préparer les données à utiliser

  • Créez les fichiers à itérer dans votre HDFS. Dans ce scénario, deux fichiers sont créés dans le répertoire : /user/ychen/data/hdfs/out.

    Vous pouvez créez un Job dans le Studio Talend pour créer deux fichiers. Pour plus d'informations, consultez tHDFSPut ou tHDFSOutput.

Relier les composants

  1. Dans la perspective Integration du Studio Talend, créez un Job vide nommé HDFSList, par exemple, dans le nœud Job Designs de la vue Repository.

    Pour plus d'informations concernant la création d'un Job, consultez le Guide utilisateur du Studio Talend.

  2. Déposez un composant tHDFSList et un tHDFSGet dans l'espace de modélisation graphique.

  3. Connectez-les à l'aide d'un lien Row > Iterate.

Configurer l'itération

  1. Double-cliquez sur le composant tHDFSList pour ouvrir sa vue Component.

  2. Dans la zone Version, sélectionnez la distribution d'Hadoop à laquelle vous êtes connecté ainsi que sa version.

  3. Dans la zone Connection, saisissez les valeurs des paramètres requis pour vous connecter à HDFS.

    Dans un cas d'utilisation réelle, vous pouvez utiliser le composant tHDFSConnection afin de créer une connexion et la réutiliser à partir du composant en question. Pour plus d'informations, consultez tHDFSConnection.

  4. Dans le champ HDFS Directory, saisissez le chemin d'accès au dossier dans lequel se trouvent les fichiers à itérer. Dans cet exemple, le répertoire est /user/ychen/data/hdfs/out/.

  5. Dans le champ FileList Type, sélectionnez File.

  6. Dans la table Files, cliquez sur le bouton pour ajouter une ligne et saisissez * entre guillemets afin d'effectuer une boucle sur les fichiers existants.

Sélectionner les fichiers

  1. Double-cliquez sur le tHDFSGet pour ouvrir sa vue Component.

  2. Dans la zone Version, sélectionnez la distribution d'Hadoop à laquelle vous vous connectez, ainsi que sa version.

  3. Dans la zone Connection, saisissez les valeurs des paramètres requis pour vous connecter à HDFS.

    Dans un cas d'utilisation réelle, vous pouvez utiliser le composant tHDFSConnection afin de créer une connexion et la réutiliser à partir du composant en question. Pour plus d'informations, consultez tHDFSConnection.

  4. Dans le champ HDFS directory, saisissez le chemin d'accès au dossier dans lequel se trouvent les fichiers.

    Vous pouvez passer votre curseur sur ce champ puis appuyer sur les touches Ctrl+Espace pour afficher la liste d'auto-complétion et sélectionner la variable tHDFSList_1_CURRENT_FILEDIRECTORY afin de réutiliser le répertoire défini dans le composant tHDFSList. Dans cette variable, tHDFSList_1 est le libellé du composant. Si vous le nommez différemment, sélectionnez la bonne variable.

    Une fois la variable sélectionnée, le répertoire devient, par exemple ((String)globalMap.get("tHDFSList_1_CURRENT_FILEDIRECTORY")) dans ce champ.

    Pour plus d'informations concernant le nommage des composants, consultez le Guide utilisateur du Studio Talend.

  5. Dans le champ Local directory, saisissez le chemin d'accès ou parcourez votre système jusqu'au dossier dans lequel vous souhaitez placer les fichiers sélectionnés. Ce dossier sera créé s'il n'existe pas. Dans cet exemple, le dossier est C:/hdfsFiles.

  6. Dans le champ Overwrite file, sélectionnez always.

  7. Dans la table Files, cliquez sur le bouton pour ajouter une ligne et saisissez * entre guillemets dans la colonne Filemask, afin de récupérer tous les fichiers existants.

Exécuter le Job

  • Appuyez sur la touche F6 pour exécuter ce Job.

Une fois le Job terminé, vous pouvez vérifier que les fichiers ont été créés dans le répertoire local.