配置输入数据 - 7.1

Talend Big Data 入门指南

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
task
数据治理
设计和开发
EnrichPlatform
Talend Administration Center
Talend Installer
Talend Runtime
Talend Studio
tHDFSInput 组件和 tFileInputDelimited 组件配置为将数据从 HDFS 加载到作业中。

开始之前

  • 源文件 movies.csvdirectors.txt 已如将文件上传到 HDFS中所述上传到 HDFS。

  • movie.csv 文件的元数据已在 Repository (存储库)Hadoop cluster (Hadoop 集群) 节点下的 HDFS 文件夹中设置。

    如果您尚未执行此操作,请参阅准备文件元数据创建元数据。

过程

  1. 展开 Repository (存储库)Metadata (元数据) 节点下的 Hadoop cluster (Hadoop 集群),然后展开 my_cdh Hadoop 连接节点及其子节点,以显示您如准备文件元数据中所述在 HDFS 文件夹下设置的 movies schema 元数据节点。
  2. 将此 schema 元数据节点拖放到作业工作区中的 movie tHDFSInput 组件上。
  3. 双击 movie tHDFSInput 组件打开其 Component (组件) 视图。

    tHDFSInput 已自动从 Repository (存储库) 重用 HDFS 配置和影片元数据,以在其 Basic settings (基本设置) 视图中定义相关参数。

  4. 双击 director tFileInputDelimited 组件打开其 Component (组件) 视图。
  5. 单击 Edit schema (编辑 schema) 旁边的 [...] 按钮打开 schema 编辑器。
  6. 单击 [+] 按钮两次添加两行,并在 Column (列) 列中,将其分别重命名为 IDName (名称)
  7. 在弹出对话框单击 OK (确定) 以确认这些更改并接受此Schema向后续组件的传播。
  8. Folder/File (文件夹/文件) 字段中,输入或浏览到存储导演数据的目录。如将文件上传到 HDFS中所述,这些数据已经写入到 /user/ychen/input_data/directors.txt
  9. Field separator (字段分隔符) 字段中,输入逗号 (,),因为这是导演数据使用的分隔符。

结果

输入组件现在即会配置为将影片数据和导演数据加载到作业。