编辑已转换的作业 - 7.1

Talend Big Data 入门指南

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
task
数据治理
设计和开发
EnrichPlatform
Talend Administration Center
Talend Installer
Talend Runtime
Talend Studio
必要时,您可以更新组件以完成在 Spark 框架中运行的数据转换流程。

开始之前

  • 确保执行 Talend 作业的客户端计算机可识别要使用的 Hadoop 集群节点的主机名。为此,请在客户端计算机的 hosts 文件中添加该 Hadoop 集群服务的 IP 地址/主机名映射条目。

    例如,如果 Hadoop Namenode 服务器的主机名是 talend-cdh550.weave.local,IP 地址是 192.168.x.x,则映射条目为 192.168.x.x talend-cdh550.weave.local

  • 要使用的 Hadoop 集群已正确配置,并且正在运行。

    本用例中使用的 Cloudera CDH V5.5 集群默认集成了 Spark。

  • 集群管理员为要使用的用户名提供了读取/写入权限,用于访问 HDFS 中的相关数据和目录。

过程

  1. Repository (存储库) 中,双击作业 aggregate_movie_director_spark_batch 作业以在工作区中将其打开。

    tHDFSConfiguration 组件已自动添加,并从原始 MapReduce 作业继承了与 HDFS 的连接的配置。

    图标表示当前的作业框架 Spark Batch 中不存在原始作业中所用的组件。在本示例中,是 tHDFSInputtHDFSOutput

  2. 单击 tHDFSInput 将其选中,然后在弹出的 Warning (警告) 窗口中单击 OK (确定) 关闭此窗口。
  3. 按下键盘上的 Delete (删除) 以移除 tHDFSInput
  4. 在作业工作区中输入 tFileInputDelimited,然后从显示的列表中选择此组件。

    tFileInputDelimited 将添加到工作区。

  5. 执行相同的操作,将 tHDFSOutput 替换为 tFileOutputDelimited
  6. 展开 Repository (存储库)Metadata (元数据) 节点下的 Hadoop cluster (Hadoop 集群),然后展开 my_cdh 连接节点及其子节点,以显示您根据准备文件元数据所述在 HDFS 文件夹下设置的 movies schema 元数据节点。
  7. 将此 schema 元数据节点拖放到作业工作区中的新 tFileInputDelimited 组件上。
  8. 右键单击此 tFileInputDelimited 组件,然后从上下文菜单中选择 Row (行) > Main (主) 并单击 tMap 将其连接到 tMap
  9. 右键单击 tMap,然后从上下文菜单中选择 Row (行) > out1 并单击新的 tFileOutputDelimitedtMap 连接到此组件。
  10. 双击新的 tFileOutputDelimited 组件打开其 Component (组件) 视图。
  11. Folder (文件夹) 字段中,输入或浏览到需要写入结果的目录。在本场景中,为 /user/ychen/output_data/spark_batch/out,其接收包含影片导演姓名的记录。
  12. 选中 Merge result to single file (将结果合并到单个文件) 复选框,以便将通常由 Spark 生成的 part- 文件合并到一个文件中。

    此时 Merge file path (合并文件路径) 字段将显示。

  13. Merge file path (合并文件路径) 字段中,输入或浏览到 part-part- 文件要合并到的文件。

    在本场景中,此文件为 /user/ychen/output_data/spark_batch/out/merged

  14. 双击另一个从 tMap 接收 reject (拒绝) 连接的 tFileOutputDelimited 组件,打开其 Component (组件) 视图。
  15. Folder (文件夹) 字段中,将目录设定为 /user/ychen/output_data/spark_batch/reject
  16. Run (运行) 视图中,单击 Spark configuration (Spark 配置) 选项卡以验证是否已从原始作业正确继承 Hadoop/Spark 连接元数据。

    您始终需要使用此 Spark Configuration (Spark 配置) 选项卡为整个 Spark Batch 作业定义与给定 Hadoop/Spark 发行版的连接,此连接在作业范围内生效。

  17. 如果您不确定 Spark 集群是否能够解析执行作业的计算机的主机名,选中 Define the driver hostname or IP address (定义驱动程序主机名或 IP 地址) 复选框,然后在显示的字段中输入此计算机的 IP 地址。

    如不勾选此复选框,Spark 集群会将在地址为 127.0.0.1 的计算机 (即集群内的这台计算机本身)上查找 Spark 驱动程序。

  18. F6 运行作业。

结果

Run (运行) 视图将在 Studio 的下半部分自动打开,并显示此作业的执行进度。

完成后,您可以检查 (例如在 HDFS 系统的 Web 控制台中) 输出是否已被写入了 HDFS 中。