Configurer les données d'entrée - 7.3

Guide de prise en main de Talend Big Data Platform

author
Talend Documentation Team
EnrichVersion
7.3
EnrichProdName
Talend Big Data Platform
task
Création et développement
Installation et mise à niveau
Qualité et préparation de données > Nettoyage de données
Qualité et préparation de données > Profiling de données
EnrichPlatform
Studio Talend
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Les composants tFileInputDelimited sont configurés pour charger des données de DBFS dans le Job.

Avant de commencer

Procédure

  1. Développez le nœud File delimited sous le nœud Metadata dans le Repository, puis le nœud des connexions fichiers movies et son nœud enfant pour afficher le nœud de métadonnées de schéma movies.
  2. Double-cliquez sur le nœud de cette métadonnée de schéma pour ouvrir son assistant.
  3. Cliquez sur le bouton pour exporter le schéma vers un répertoire local.
  4. Double-cliquez sur le composant movie tFileInputDelimited pour ouvrir sa vue Component.
  5. Assurez-vous de décocher la case Define a storage configuration component. Cela permet au composant de lire directement les données depuis le système de fichiers du cluster Spark à définir ultérieurement dans l'onglet Spark configuration. Dans ce scénario, le système de fichiers est DBFS.
  6. Cliquez sur Edit schema pour ouvrir l'éditeur du schéma, puis cliquez sur le bouton pour importer le schéma des données de films précédemment exporté depuis la métadonnée File delimited dans le Repository.
  7. Dans le champ Folder/File, saisissez le chemin d'accès pointant vers les données de films stockées dans DBFS.
  8. Dans le champ Header, saisissez 1 sans guillemet. Cela permet au composant de reconnaître la première ligne de données comme l'en-tête.
  9. Double-cliquez sur le composant tFileInputDelimited nommé director pour ouvrir sa vue Component.
  10. Assurez-vous de décocher la case Define a storage configuration component, comme expliqué précédemment.
  11. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir l'éditeur du schéma.
  12. Cliquez deux fois sur le bouton [+] pour ajouter deux lignes et, dans la colonne Column, renommez-les respectivement en ID et Name.
  13. Cliquez sur OK pour valider ces modifications et acceptez la propagation proposée par la boîte de dialogue qui s'ouvre.
  14. Dans le champ Folder/File, saisissez le chemin d'accès au répertoire où sont stockées les données relatives aux réalisateurs. Comme expliqué dans Charger des fichiers dans DBFS (Databricks File System), ces données ont été écrites dans /FileStore/ychen/movie_library/directors.txt.
  15. Dans le champ Field separator, saisissez une virgule (,), car ce caractère est utilisé pour séparer les données des réalisateurs.

Résultats

Les composants d'entrée sont configurés pour charger les données des films et réalisateurs dans le Job.