配置输入数据 - 7.2

Talend Big Data Platform 入门指南

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data Platform
task
数据治理
数据质量和准备 > 分析数据
数据质量和准备 > 清理数据
设计和开发
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
tFileInputDelimited 组件配置为将数据从 DBFS 加载到作业中。

开始之前

过程

  1. 展开 Repository (存储库)Metadata (元数据) 节点下的 File delimited (分隔文件),然后展开 movies (影片) 文件连接节点及其子节点,以显示 movies (影片) schema 元数据节点。
  2. 双击该 schema 元数据节点,打开其向导。
  3. 单击 按钮,将 schema 导出到本地目录。
  4. 双击 movie (影片) tFileInputDelimited 组件打开其 Component (组件) 视图。
  5. 确保清除 Define a storage configuration component (定义存储配置组件) 复选框。这让该组件可以直接从 Spark 集群的文件系统 (稍后在 Spark configuration (Spark 配置) 选项卡中进行定义) 读取数据,;在此场景中,此文件系统是 DBFS。
  6. 单击 Edit schema (编辑 schema) 以打开 schema 编辑器,然后单击 按钮以导入之前从 Repository (存储库)File delimited (分隔文件) 元数据中导出的影片 schema。
  7. Folder/File (文件夹/文件) 字段中,输入指向存储在 DBFS 中的影片数据的路径。
  8. Header (文件头) 字段中,输入 1,不带引号。这让组件可以将数据的第一行识别为数据头。
  9. 双击 director (导演) tFileInputDelimited 组件打开其 Component (组件) 视图。
  10. 出于与之前步骤中所述相同的原因,确保清除 Define a storage configuration component (定义存储配置组件) 复选框。
  11. 单击 Edit schema (编辑 schema) 旁边的 [...] 按钮打开 schema 编辑器。
  12. 单击 [+] 按钮两次添加两行,并在 Column (列) 列中,将其分别重命名为 IDName (名称)
  13. 在弹出对话框单击 OK (确定) 以确认这些更改并接受此Schema向后续组件的传播。
  14. Folder/File (文件夹/文件) 字段中,输入导演数据存储目录。如 将文件上传到 DBFS (Databricks 文件系统) 中所述,这些数据已经写入到 /FileStore/ychen/movie_library/directors.txt
  15. Field separator (字段分隔符) 字段中,输入逗号 (,),因为这是导演数据使用的分隔符。

结果

输入组件现在即会配置为将影片数据和导演数据加载到作业。