Configurer la lecture de données d'entrée. - 7.2

Guide de prise en main de Talend Open Studio for Big Data

EnrichVersion
7.2
EnrichProdName
Talend Open Studio for Big Data
EnrichPlatform
Studio Talend
task
Création et développement
Installation et mise à niveau
Les composants DBFS et les deux composants tFileInputDelimited sont configurés pour charger des données depuis DBFS dans le Job.

Avant de commencer

Procédure

  1. Double-cliquez sur le tDBFSConnection pour ouvrir sa vue Component.

    Exemple

  2. Dans le champ Endpoint, saisissez l'adresse URL de votre espace de travail Azure Databricks. Vous pouvez trouver cette URL dans la Palette Overview de votre espace de travail Databricks sur votre portail Azure. Par exemple, cette URL peut ressembler à : https://westeurope.azuredatabricks.net.
  3. Cliquez sur le bouton [...] situé à côté du champ Token pour saisir le jeton d'authentification généré pour votre compte utilisateur·rice Databricks. Vous pouvez générer ou trouver ce jeton sur la page User settings de votre espace de travail Databricks. Pour plus d'informations, consultez Token management dans la documentation Azure.
  4. Double-cliquez sur le tDBFSGet pour ouvrir sa vue Component.

    Exemple

  5. Sélectionnez Use an existing connection pour utiliser les informations de connexion définies dans le tDBFSConnection.
  6. Dans le champ DBFS directory, saisissez le chemin d'accès au répertoire dans DBFS dans lequel les fichiers relatifs aux films et à leurs cinéastes sont stockés.
  7. Dans le champ Local directory, saisissez le chemin d'accès ou parcourez votre système jusqu'au dossier dans lequel les fichiers à télécharger de DBFS sont stockés.

    Ce répertoire est créé à la volée s'il n'existe pas.

  8. Dans la liste déroulante Overwrite file, sélectionnez always pour écraser les fichiers s'ils existent déjà dans le répertoire cible dans le système de fichiers local.
  9. Dans la table Files, ajoutez une ligne en cliquant sur le bouton [+] afin de définir les critères de sélection des fichiers à copier.
  10. Dans la colonne Filemask, saisissez un astérisque (*) entre guillemets doubles, pour que le tDBFSGet sélectionne tous les fichiers stockés dans le dossier spécifié dans le champ Local directory.
  11. Laissez la colonne New name vide, c'est-à-dire, laissez les guillemets doubles par défaut pour ne pas modifier le nom des fichiers après chargement.
  12. Développez le nœud File delimited sous le nœud Metadata dans le Repository pour afficher le nœud de métadonnées de schéma movies que vous avez configuré comme expliqué dans Préparer la métadonnée relative aux films.
  13. Déposez ce nœud de métadonnées de schéma sur le composant movie tFileInputDelimited dans l'espace de modélisation graphique du Job.
  14. Double-cliquez sur le composant movie tFileInputDelimited pour ouvrir sa vue Component.

    Le tFileInputDelimited a automatiquement réutilisé les métadonnées associées aux films du Repository pour définir les paramètres dans la vue Basic settings.

  15. Cliquez sur le champ File name/Stream pour ouvrir la boîte dialogue Edit parameter using repository pour mettre à jour le séparateur de champs.
    Le composant tFileInputDelimited réutilise l'emplacement par défaut du fichier que vous avez défini pour les métadonnées File delimited. Vous devez le modifier pour lire le fichier movie depuis le répertoire dans lequel ce fichier a été téléchargé de DBFS.
  16. Sélectionnez Change to built-in property puis cliquez sur OK pour valider votre choix.
    Le champ File name/Stream devient modifiable.
  17. Saisissez le répertoire dans lequel le fichier movie téléchargé de DBFS est stocké.
  18. Double-cliquez sur le composant tFileInputDelimited nommé director pour ouvrir sa vue Component.
  19. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir l'éditeur du schéma.
  20. Cliquez deux fois sur le bouton [+] pour ajouter deux lignes et, dans la colonne Column, renommez-les respectivement en ID et Name.
  21. Cliquez sur OK pour valider ces modifications et acceptez la propagation proposée par la boîte de dialogue qui s'ouvre.
  22. Dans le champ File name/Stream, saisissez le répertoire dans lequel les données relatives aux cinéastes de films sont stockées.
  23. Dans le champ Field separator, saisissez une virgule (,) entre guillemets doubles.

Résultats

Les composants tFileInputDelimited sont désormais configurés pour charger dans le Job les données relatives aux films et aux cinéastes.