两个 tPigLoad 组件配置为将数据从 HDFS 加载到作业中。
过程
-
展开 Repository (存储库) 中 Metadata (元数据) 节点下的 Hadoop cluster (Hadoop 集群),然后展开 my_cdh Hadoop 连接节点及其子节点,以显示您如准备文件元数据中所述在 HDFS 文件夹下设置的 movies schema 元数据节点。
-
将此 schema 元数据节点拖放到作业工作区中的 movie tPigLoad 组件上。
-
双击 movie tPigLoad 组件打开其 Component (组件) 视图。
此 tPigLoad 已自动从 Repository (存储库) 重用 HDFS 配置和影片元数据,以在其 Basic settings (基本设置) 视图中定义相关参数。
-
从 Load function (加载函数) 下拉列表中,选择 PigStorage 以使用 PigStorage 函数 (Pig 的内置函数),将影片数据加载为结构化文本文件。有关 Pig 的 PigStorage 函数的更多详细信息,请参阅 PigStorage。
-
从 Repository (存储库) 中名为 my_cdh 的 Hadoop 连接节点中,将 HDFS 文件夹下的 cdh_hdfs HDFS 连接节点拖放到作业工作区中标记为 director 的 tPigLoad 组件上。
这将会把在 Repository (存储库) 中创建的 HDFS 连接配置应用于当前 tPigLoad 组件中的 HDFS 相关设置。
-
双击 director tPigLoad 组件打开其 Component (组件) 视图。
此 tPigLoad 已自动从 Repository (存储库) 重用 HDFS 配置,以在其 Basic settings (基本设置) 视图中定义相关参数。
-
单击 Edit schema (编辑 schema) 旁边的 [...] 按钮打开 schema 编辑器。
-
单击 [+] 按钮两次添加两行,并在 Column (列) 列中,将其分别重命名为 ID 和 Name (名称)。
-
在弹出对话框单击 OK (确定) 以确认这些更改并接受此Schema向后续组件的传播。
-
从 Load function (加载函数) 下拉列表中,选择 PigStorage 以使用 PigStorage 函数。
-
在 Input file URI (输入文件 URI) 字段中,输入存储有关导演数据的数据目录。如将文件上传到 HDFS中所述,这些数据已经写入到 /user/ychen/input_data/directors.txt。
-
单击 Field separator (字段分隔符) 字段打开 Edit parameter using repository (使用存储库编辑参数) 对话框以更新字段分隔符。
您需要更改此字段分隔符,因为此 tPigLoad 正在重用您为 HDFS 元数据定义的默认分隔符 - 分号 (;),而导演数据实际使用逗号 (,) 作为分隔符。
-
选择 Change to built-in property (更改为内置属性),然后单击 OK (确定) 确认您的选择。
Field separator (字段分隔符) 字段变为可编辑。
-
输入以双引号括起的逗号。
结果
tPigLoad 组件现在即会配置为将影片数据和导演数据加载到作业。