Charger des fichiers dans DBFS (Databricks File System) - 7.3

Guide de prise en main de Talend Big Data Platform

author
Talend Documentation Team
EnrichVersion
7.3
EnrichProdName
Talend Big Data Platform
task
Création et développement
Installation et mise à niveau
Qualité et préparation de données > Nettoyage de données
Qualité et préparation de données > Profiling de données
EnrichPlatform
Studio Talend
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime

Charger un fichier dans DBFS permet à des Jobs Big Data de lire et traiter ce fichier. DBFS est le système de fichiers Big Data à utiliser dans cet exemple.

Dans cette procédure, vous allez créer un Job qui écrit des données dans votre système DBFS. Pour les fichiers nécessaires à ce scénario, vous pouvez télécharger tpbd_gettingstarted_source_files.zip depuis l'onglet Téléchargements du panneau de gauche de la page.

Procédure

  1. Dans la vue Repository, développez le nœud Job Designs, cliquez-droit sur le nœud Standard, et sélectionnez Create folder dans le menu contextuel.
  2. Dans l'assistant New Folder, nommez le dossier de Jobs getting_started, puis cliquez sur Finish pour créer le dossier.
  3. Cliquez-droit sur le dossier getting_started et sélectionnez Create Standard Job dans le menu contextuel.
  4. Dans l'assistant New Job, saisissez un nom pour le Job à créer, ainsi que d'autres informations utiles.

    Par exemple, saisissez write_to_dbfs dans le champ Name.

    Dans cette étape de l'assistant, Name est le seul champ obligatoire. Les informations que vous fournissez dans le champ Description s'affichent en tant qu'info-bulle lorsque vous passez votre curseur sur le Job dans la vue Repository.

  5. Cliquez sur Finish pour créer votre Job.

    Un Job vide s'ouvre dans le Studio.

  6. Dans l'espace de modélisation graphique de ce Job vide, saisissez dbfs pour rechercher les composants associés à DBFS. Dans la liste de composants qui s'affiche, double-cliquez sur tDBFSConnection pour le sélectionner. Le tDBFSConnection est ajouté à l'espace de modélisation graphique.
  7. Répétez l'opération pour ajouter tDBFSPut à l'espace de modélisation graphique.
  8. Cliquez-droit sur le tDBFSConnection et, dans le menu contextuel qui s'affiche, sélectionnez Trigger > On Subjob Ok.

    Exemple

  9. Cliquez sur le tDBFSPut pour relier le tDBFSConnection au tDBFSPut.
  10. Double-cliquez sur le tDBFSConnection pour ouvrir sa vue Component.

    Exemple

  11. Dans le champ Endpoint, saisissez l'adresse URL de votre espace de travail Azure Databricks. Vous pouvez trouver cette URL dans la Palette Overview de votre espace de travail Databricks sur votre portail Azure. Par exemple, cette URL peut se présenter comme ceci https://adb-$workspaceId.$random.azuredatabricks.net.
  12. Cliquez sur le bouton [...] à côté du champ Token pour saisir le jeton d'authentification généré pour votre compte utilisateur·rice Databricks. Vous pouvez générer ou trouver ce jeton sur la page User settings de votre espace de travail Databricks. Pour plus d'informations, consultez Token management (en anglais) dans la documentation Azure.
  13. Double-cliquez sur le tDBFSPut pour ouvrir sa vue Component.

    Exemple

  14. Sélectionnez Use an existing connection pour utiliser les informations de connexion définies dans le tDBFSConnection.
  15. Dans le champ Local directory, saisissez le chemin d'accès ou parcourez votre système jusqu'au dossier dans lequel les fichiers à copier dans DBFS sont stockés.
  16. Dans le champ DBFS directory, saisissez le chemin d'accès au répertoire cible du DBFS dans lequel seront stockés les fichiers. L'emplacement recommandé est le dossier FileStore, comme conseillé dans la section FileStore de la documentation Databricks.

    Ce répertoire est créé à la volée s'il n'existe pas.

  17. Dans la liste déroulante Overwrite file, sélectionnez always pour écraser les fichiers s'ils existent déjà dans le répertoire cible, dans DBFS.
  18. Dans la table Files, ajoutez une ligne en cliquant sur le bouton [+] afin de définir les critères de sélection des fichiers à copier.
  19. Dans la colonne Filemask, saisissez un astérisque (*) entre guillemets doubles, pour que le tDBFSPut sélectionne tous les fichiers stockés dans le dossier spécifié dans le champ Local directory.
  20. Laissez la colonne New name vide, c'est-à-dire, laissez les guillemets doubles par défaut pour ne pas modifier le nom des fichiers après chargement.
  21. Appuyez sur F6 pour exécuter le Job.

    Les fichiers concernant les films et leurs cinéastes sont stockés dans ce répertoire et ouverts automatiquement. Elle affiche l'avancement de l'exécution du Job.

Résultats

Lorsque le Job est terminé, les fichiers chargés se trouvent dans DBFS, dans le répertoire spécifié.