Charger des fichiers dans DBFS (Databricks File System) - 7.2

Guide de prise en main de Talend Open Studio for Big Data

EnrichVersion
7.2
EnrichProdName
Talend Open Studio for Big Data
EnrichPlatform
Studio Talend
task
Création et développement
Installation et mise à niveau

Charger un fichier dans DBFS permet à des Jobs Big Data de lire et traiter ce fichier. DBFS est le système de fichiers Big Data à utiliser dans cet exemple.

Dans cette procédure, vous allez créer un Job qui écrit des données dans votre système DBFS. Pour les fichiers nécessaires à ce scénario, vous pouvez télécharger tos_bd_gettingstarted_source_files.zip depuis l'onglet Téléchargements du panneau de gauche de la page.

Procédure

  1. Dans la vue Repository, cliquez-droit sur le nœud Job Designs et sélectionnez Create folder dans le menu contextuel.
  2. Dans l'assistant New Folder, nommez le dossier de Jobs getting_started, puis cliquez sur Finish pour créer le dossier.
  3. Cliquez-droit sur le dossier getting_started et sélectionnez Create Job dans le menu contextuel.
  4. Dans l'assistant New Job, saisissez un nom pour le Job à créer, ainsi que d'autres informations utiles.

    Par exemple, saisissez write_to_dbfs dans le champ Name.

    Dans cette étape de l'assistant, Name est le seul champ obligatoire. Les informations que vous fournissez dans le champ Description s'affichent en tant qu'info-bulle lorsque vous passez votre curseur sur le Job dans la vue Repository.

  5. Cliquez sur Finish pour créer votre Job.

    Un Job vide s'ouvre dans le Studio.

  6. Dans l'espace de modélisation graphique de ce Job vide, saisissez dbfs pour rechercher les composants associés à DBFS. Dans la liste de composants qui s'affiche, double-cliquez sur tDBFSConnection pour le sélectionner. Le tDBFSConnection est ajouté à l'espace de modélisation graphique.
  7. Répétez l'opération pour ajouter tDBFSPut à l'espace de modélisation graphique.
  8. Cliquez-droit sur le tDBFSConnection et, dans le menu contextuel qui s'affiche, sélectionnez Trigger > On Subjob Ok.

    Exemple

  9. Cliquez sur le tDBFSPut pour relier le tDBFSConnection au tDBFSPut.
  10. Double-cliquez sur le tDBFSConnection pour ouvrir sa vue Component.

    Exemple

  11. Dans le champ Endpoint, saisissez l'adresse URL de votre espace de travail Azure Databricks. Vous pouvez trouver cette URL dans la Palette Overview de votre espace de travail Databricks sur votre portail Azure. Par exemple, cette URL peut ressembler à : https://westeurope.azuredatabricks.net.
  12. Cliquez sur le bouton [...] situé à côté du champ Token pour saisir le jeton d'authentification généré pour votre compte utilisateur·rice Databricks. Vous pouvez générer ou trouver ce jeton sur la page User settings de votre espace de travail Databricks. Pour plus d'informations, consultez Token management dans la documentation Azure.
  13. Double-cliquez sur le tDBFSPut pour ouvrir sa vue Component.

    Exemple

  14. Sélectionnez Use an existing connection pour utiliser les informations de connexion définies dans le tDBFSConnection.
  15. Dans le champ Local directory, saisissez le chemin d'accès ou parcourez votre système jusqu'au dossier dans lequel les fichiers à copier dans DBFS sont stockés.
  16. Dans le champ DBFS directory, saisissez le chemin d'accès au répertoire cible du DBFS dans lequel seront stockés les fichiers. L'emplacement recommandé est le dossier FileStore, comme conseillé dans la section FileStore de la documentation Databricks.

    Ce répertoire est créé à la volée s'il n'existe pas.

  17. Dans la liste déroulante Overwrite file, sélectionnez always pour écraser les fichiers s'ils existent déjà dans le répertoire cible, dans DBFS.
  18. Dans la table Files, ajoutez une ligne en cliquant sur le bouton [+] afin de définir les critères de sélection des fichiers à copier.
  19. Dans la colonne Filemask, saisissez un astérisque (*) entre guillemets doubles, pour que le tDBFSPut sélectionne tous les fichiers stockés dans le dossier spécifié dans le champ Local directory.
  20. Laissez la colonne New name vide, c'est-à-dire, laissez les guillemets doubles par défaut pour ne pas modifier le nom des fichiers après chargement.
  21. Appuyez sur F6 pour exécuter le Job.

    Les fichiers concernant les films et leurs cinéastes sont stockés dans ce répertoire et ouverts automatiquement. Elle affiche l'avancement de l'exécution du Job.

Résultats

Lorsque le Job est terminé, les fichiers chargés se trouvent dans DBFS, dans le répertoire spécifié.