Les composants DBFS, Azure et de traitement à utiliser sont disposés dans l'espace de modélisation graphique pour permettre de créer un processus complet de transformation de données.
Procédure
-
Dans le Job, saisissez le nom du composant à utiliser et sélectionnez ce composant dans la liste qui s'affiche. Dans ce scénario, les composants sont : deux tFileInputDelimited, un tMap, deux tFileOutputDelimited, un tDBFSConnection, un tDBFSGet et un tAzureStoragePut.
- Les composants DBFS sont connectés à votre système de fichiers Databricks (DBFS) pour télécharger les fichiers relatifs aux films et aux cinéastes.
-
Les deux composants tFileInputDelimited sont utilisés pour charger les données relatives aux films et aux cinéastes, respectivement, depuis votre système de fichiers local dans le flux de données du Job.
-
Le tMap est utilisé pour transformer les données d'entrée.
-
Les composants tFileOutputDelimited écrivent les résultats dans des répertoires donnés dans votre système local.
- Le tAzureStoragePut est utilisé pour charger les données transformées dans un conteneur Azure Blob Storage.
-
Double-cliquez sur le nom d'un des composants tFileInputDelimited pour le modifier, puis saisissez movie pour renommer le composant.
-
Répétez l'opération pour nommer l'autre tFileInputDelimited director.
-
Cliquez-droit sur le tDBFSConnection et, dans le menu contextuel qui s'affiche, sélectionnez .
-
Cliquez sur le tDBFSGet pour relier le tDBFSConnection au tDBFSGet.
-
Répétez ces opérations pour utiliser systématiquement le lien On Subjob Ok pour relier le tDBFSGet au tFileInputDelimited nommé movie, puis reliez le même composant tFileInputDelimited au tAzureStoragePut.
-
Cliquez-droit sur le tFileInputDelimited nommé movie, puis dans le menu contextuel, sélectionnez et cliquez sur le tMap pour relier ces deux composants. Ce lien est le lien principal à travers lequel les données des films sont envoyées au tMap.
-
Répétez l'opération pour relier le composant tFileInputDelimited director au tMap à l'aide du lien . Ce lien Lookup est le lien de référence à travers lequel les données des cinéastes sont envoyées au tMap en tant que données de référence.
-
Répétez l'opération pour lier le tMap au tFileOutputDelimited à l'aide d'un lien . Dans la boîte de l'assistant qui s'ouvre, nommez le lien out1 et cliquez sur OK pour valider vos modifications.
-
Répétez ces opérations pour relier le tMap à l'autre tFileOutputDelimited à l'aide du lien et nommez-le reject.
Résultats
Le Job complet doit ressembler à ceci :