Configurer les données d'entrée

Les composants tFileInputDelimited sont configurés pour charger des données de DBFS dans le Job.

Avant de commencer

Les fichiers sources, movies.csv et directors.txt doivent avoir été chargés dans DBFS, comme expliqué dans Charger des fichiers dans DBFS (Databricks File System).
la métadonnée du fichier movie.csv a été configurée sous le nœud File delimited, dans le Repository.

Si ce n'est pas le cas, consultez Préparer la métadonnée relative aux films pour créer la métadonnée.

Procédure

Développez le nœud File delimited sous le nœud Metadata dans le Repository, puis le nœud des connexions fichiers movies et son nœud enfant pour afficher le nœud de métadonnées de schéma movies.
Double-cliquez sur le nœud de cette métadonnée de schéma pour ouvrir son assistant.
Cliquez sur le bouton pour exporter le schéma vers un répertoire local.
Double-cliquez sur le composant movie tFileInputDelimited pour ouvrir sa vue Component.
Assurez-vous de décocher la case Define a storage configuration component. Cela permet au composant de lire directement les données depuis le système de fichiers du cluster Spark à définir ultérieurement dans l'onglet Spark configuration. Dans ce scénario, le système de fichiers est DBFS.
Cliquez sur Edit schema pour ouvrir l'éditeur du schéma, puis cliquez sur le bouton pour importer le schéma des données de films précédemment exporté depuis la métadonnée File delimited dans le Repository.
Dans le champ Folder/File, saisissez le chemin d'accès pointant vers les données de films stockées dans DBFS.
Dans le champ Header, saisissez 1 sans guillemet. Cela permet au composant de reconnaître la première ligne de données comme l'en-tête.
Double-cliquez sur le composant tFileInputDelimited nommé director pour ouvrir sa vue Component.
Assurez-vous de décocher la case Define a storage configuration component, comme expliqué précédemment.
Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir l'éditeur du schéma.
Cliquez deux fois sur le bouton [+] pour ajouter deux lignes et, dans la colonne Column, renommez-les respectivement en ID et Name.
Cliquez sur OK pour valider ces modifications et acceptez la propagation proposée par la boîte de dialogue qui s'ouvre.
Dans le champ Folder/File, saisissez le chemin d'accès au répertoire où sont stockées les données relatives aux cinéastes. Comme expliqué dans Charger des fichiers dans DBFS (Databricks File System), ces données ont été écrites dans /FileStore/ychen/movie_library/directors.txt.
Dans le champ Field separator, saisissez une virgule (,), car ce caractère est utilisé pour séparer les données des cinéastes.

Résultats

Les composants d'entrée sont configurés pour charger les données des films et cinéastes dans le Job.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !

Laissez vos commentaires ici