配置 Pig 的输入数据 - 7.1

Talend Open Studio for Big Data 入门指南

EnrichVersion
7.1
EnrichProdName
Talend Open Studio for Big Data
EnrichPlatform
Talend Studio
task
数据治理
设计和开发
两个 tPigLoad 组件配置为将数据从 HDFS 加载到作业中。

开始之前

  • 源文件 movies.csvdirectors.txt 已如将文件上传到 HDFS中所述上传到 HDFS。

  • movie.csv 文件的元数据已在 Repository (存储库)Hadoop cluster (Hadoop 集群) 节点下的 HDFS 文件夹中设置。

    如果您尚未执行此操作,请参阅准备文件元数据创建元数据。

过程

  1. 展开 Repository (存储库)Metadata (元数据) 节点下的 Hadoop cluster (Hadoop 集群),然后展开 my_cdh Hadoop 连接节点及其子节点,以显示您如准备文件元数据中所述在 HDFS 文件夹下设置的 movies schema 元数据节点。
  2. 将此 schema 元数据节点拖放到作业工作区中的 movie tPigLoad 组件上。
  3. 双击 movie tPigLoad 组件打开其 Component (组件) 视图。

    tPigLoad 已自动从 Repository (存储库) 重用 HDFS 配置和影片元数据,以在其 Basic settings (基本设置) 视图中定义相关参数。

  4. Load function (加载函数) 下拉列表中,选择 PigStorage 以使用 PigStorage 函数 (Pig 的内置函数),将影片数据加载为结构化文本文件。有关 Pig 的 PigStorage 函数的更多详细信息,请参阅 PigStorage
  5. Repository (存储库) 中名为 my_cdh 的 Hadoop 连接节点中,将 HDFS 文件夹下的 cdh_hdfs HDFS 连接节点拖放到作业工作区中标记为 directortPigLoad 组件上。

    这将会把在 Repository (存储库) 中创建的 HDFS 连接配置应用于当前 tPigLoad 组件中的 HDFS 相关设置。

  6. 双击 director tPigLoad 组件打开其 Component (组件) 视图。

    tPigLoad 已自动从 Repository (存储库) 重用 HDFS 配置,以在其 Basic settings (基本设置) 视图中定义相关参数。

  7. 单击 Edit schema (编辑 schema) 旁边的 [...] 按钮打开 schema 编辑器。
  8. 单击 [+] 按钮两次添加两行,并在 Column (列) 列中,将其分别重命名为 IDName (名称)
  9. 在弹出对话框单击 OK (确定) 以确认这些更改并接受此Schema向后续组件的传播。
  10. Load function (加载函数) 下拉列表中,选择 PigStorage 以使用 PigStorage 函数。
  11. Input file URI (输入文件 URI) 字段中,输入存储有关导演数据的数据目录。如将文件上传到 HDFS中所述,这些数据已经写入到 /user/ychen/input_data/directors.txt
  12. 单击 Field separator (字段分隔符) 字段打开 Edit parameter using repository (使用存储库编辑参数) 对话框以更新字段分隔符。

    您需要更改此字段分隔符,因为此 tPigLoad 正在重用您为 HDFS 元数据定义的默认分隔符 - 分号 (;),而导演数据实际使用逗号 (,) 作为分隔符。

  13. 选择 Change to built-in property (更改为内置属性),然后单击 OK (确定) 确认您的选择。

    Field separator (字段分隔符) 字段变为可编辑。

  14. 输入以双引号括起的逗号。

结果

tPigLoad 组件现在即会配置为将影片数据和导演数据加载到作业。