将输出写入 HDFS - 7.1

Talend Big Data 入门指南

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
task
数据治理
设计和开发
EnrichPlatform
Talend Administration Center
Talend Installer
Talend Runtime
Talend Studio
有两个输出组件配置用于将期望和被拒的影片数据写入 HDFS 中的不同目录。

开始之前

  • 确保执行 Talend 作业的客户端计算机可识别要使用的 Hadoop 集群节点的主机名。为此,请在客户端计算机的 hosts 文件中添加该 Hadoop 集群服务的 IP 地址/主机名映射条目。

    例如,如果 Hadoop Namenode 服务器的主机名是 talend-cdh550.weave.local,IP 地址是 192.168.x.x,则映射条目为 192.168.x.x talend-cdh550.weave.local

  • 要使用的 Hadoop 集群已正确配置,并且正在运行。

  • 集群管理员为要使用的用户名提供了读取/写入权限,用于访问 HDFS 中的相关数据和目录。

过程

  1. 双击接收 out1 连接的 tHDFSOutput 组件。

    Basic settings (基本设置) 视图在 Studio 的下半部分打开。

  2. Folder (文件夹) 字段中,输入或浏览到需要写入结果的目录。在本场景中,为 /user/ychen/output_data/mapreduce/out,其接收包含影片导演姓名的记录。
  3. Action (操作) 下拉列表中选择 Overwrite (改写)。这样会改写已存在的目标目录。
  4. 选中 Merge result to single file (将结果合并到单个文件) 复选框,以便将通常由 MapReduce 生成的 part- 文件合并到一个文件中。此时 Merge file path (合并文件路径) 字段将显示。
  5. Merge file path (合并文件路径) 字段中,输入或浏览到 part- 文件要合并到的文件。

    在本场景中,此文件为 /user/ychen/output_data/mapreduce/out/merged

  6. 重复相同的操作以配置接收 reject (拒绝) 连接的 tFileOutputDelimited 组件,但在 Folder (文件夹) 字段中将目录设为 /user/ychen/output_data/mapreduce/reject,同时不勾选 Merge result to single file (将结果合并到单个文件) 复选框。
  7. Run (运行) 视图中,单击 Hadoop configuration (Hadoop 配置) 选项卡以验证是否已从 Repository (存储库) 正确导入 Hadoop 连接元数据。

    您始终需要使用此 Hadoop Configuration (Hadoop 配置) 选项卡为整个 MapReduce 作业定义与给定 Hadoop 发行版的连接,此连接生效于作业的范围内。

  8. F6 运行作业。

结果

Run (运行) 视图将在 Studio 的下半部分自动打开,并显示此作业的执行进度。

作业本身也以图形方式显示进度。

完成后,您可以检查 (例如在 HDFS 系统的 Web 控制台中) 输出是否已被写入了 HDFS 中。

此外还创建了合并文件。