写入输出 - 7.1

Talend Open Studio for Big Data 入门指南

EnrichVersion
7.1
EnrichProdName
Talend Open Studio for Big Data
EnrichPlatform
Talend Studio
task
数据治理
设计和开发
有两个 tPigStoreResult 组件配置用于将期望和被拒的影片数据写入 HDFS 的不同目录。

开始之前

  • 确保执行 Talend 作业的客户端计算机可识别要使用的 Hadoop 集群节点的主机名。为此,请在客户端计算机的 hosts 文件中添加该 Hadoop 集群服务的 IP 地址/主机名映射条目。

    例如,如果 Hadoop Namenode 服务器的主机名是 talend-cdh550.weave.local,IP 地址是 192.168.x.x,则映射条目为 192.168.x.x talend-cdh550.weave.local

  • 要使用的 Hadoop 集群已正确配置,并且正在运行。

过程

  1. 双击接收 out1 连接的 tPigStoreResult

    Basic settings (基本设置) 视图在 Studio 的下半部分打开。

  2. Result file (结果文件) 字段中,输入需要写入结果的目录。在本场景中,为 /user/ychen/output_data/out,其接收包含影片导演姓名的记录。
  3. 选中 Remove result directory if exists (移除结果目录 [如果存在]) 复选框。
  4. Store function (存储函数) 列表中选择 PigStorage,以人类可读的 UTF-8 格式写入记录。
  5. Field separator (字段分隔符) 字段中,输入以双引号括起的 ;
  6. 重复同样的操作以配置接收 reject (拒绝) 连接的 tPigStoreResult,但在 Result file (结果文件) 字段中将目录设为 /user/ychen/output_data/reject
  7. F6 运行作业。

结果

Run (运行) 视图将在 Studio 的下半部分自动打开,并显示此作业的执行进度。

完成后,您可以检查 (例如在 HDFS 系统的 Web 控制台中) 输出是否已被写入了 HDFS 中。