配置到 Spark 使用的文件系统的连接 - 7.2

Talend Data Fabric 入门指南

Version
7.2
Language
中文(简体)
Product
Talend Data Fabric
Module
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
Content
数据治理
数据质量和准备 > 分析数据
数据质量和准备 > 清理数据
设计和开发

如果使用的是 Google Dataproc 或 HDInsight,则跳过本节,因为这两个发行版在 Spark configuration (Spark 配置) 选项卡中配置此连接。

步骤

  1. 双击 tHDFSConfiguration 以打开其 Component (组件) 视图。

    Spark 使用此组件连接到 HDFS 系统,依赖于作业的 jar 文件将传输至此系统。

  2. 如果您在 Repository (存储库) 中的 Hadoop cluster (Hadoop 集群) 节点下定义了 HDFS 连接元数据,请从 Property type (属性类型) 下拉列表中选择 Repository (存储库),然后单击 [...] 按钮以选择您使用 Repository content (存储库内容) 向导定义的 HDFS 连接。

    有关设定可重复使用的 HDFS 连接的更多详细信息,请参阅Talend Data Fabric Studio 用户指南

    如果完成此步骤,则可以跳过关于配置 tHDFSConfiguration 的以下步骤,因为所有必填字段应已自动填充。

  3. Version (版本) 区域中,选择您需要连接的 Hadoop 发行版及其版本。
  4. NameNode URI 字段中,输入托管集群 NameNode 服务的计算机的位置。 如果您使用 WebHDFS,位置应当是 webhdfs://masternode:portnumber;尚不支持带 SSL 的 WebHDFS。
  5. Username (用户名) 字段中,输入连接至要使用的 HDFS 系统时所使用的身份验证信息。请注意,用户名必须与您在 Spark configuration (Spark 配置) 选项卡中设定的相同。