手动设置 Hadoop 连接 - 7.1

Talend Big Data 入门指南

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
task
数据治理
设计和开发
EnrichPlatform
Talend Administration Center
Talend Installer
Talend Runtime
Talend Studio
如果在 Repository (存储库) 中建立与给定 Hadoop 发行版的连接,此后每次需要使用相同的 Hadoop 发行版时,即无需配置该连接。

开始之前

  • 确保安装有 Talend Studio 的客户端计算机可识别要使用的 Hadoop 集群的节点的主机名。为此,请在客户端计算机的 hosts 文件中添加该 Hadoop 集群服务的 IP 地址/主机名映射条目。

    例如,如果 Hadoop Namenode 服务器的主机名是 talend-cdh550.weave.local,IP 地址是 192.168.x.x,则映射条目为 192.168.x.x talend-cdh550.weave.local

  • 要使用的 Hadoop 集群已正确配置,并且正在运行。

本示例中将用到的 Cloudera Hadoop 集群是 Yarn 模式下的 CDH V5.5 集群,应用发行版的默认配置而不启用 Kerberos 安全性。有关 CDH V5.5 发行版默认配置的更多详细信息,请参阅在集群中部署 CDH 5CDH5 中使用的默认端口

过程

  1. 在 studio 的 Repository (存储库) 树视图中,展开 Metadata (元数据),然后右键单击 Hadoop cluster (Hadoop 集群)
  2. 从上下文菜单中选择 Create Hadoop cluster (创建 Hadoop 集群),打开 Hadoop cluster connection (Hadoop 集群连接) 向导。
  3. 填写有关此连接的一般信息,例如 Name (名称)Description (描述),然后单击 Next (下一步) 打开 [Hadoop configuration import wizard (Hadoop 配置导入向导)] 窗口,可以帮助您导入现成的配置 (如有)。
  4. 选中 Enter manually Hadoop services (手动输入 Hadoop 服务) 复选框,手动输入正在创建的 Hadoop 连接的配置信息。
  5. 单击 Finish (完成) 关闭此导入向导。
  6. Distribution (发行版) 列表中选择 Cloudera,然后从 Version (版本) 列表中选择 Cloudera CDH5.5 (YARN 模式)
  7. Namenode URI 字段中输入指向用作待用 Cloudera Hadoop 集群的 NameNode 服务的计算机的 URI。

    NameNode 是 Hadoop 系统的主节点。例如,假设您选择了一台名为 machine1 的计算机作为 NameNode,要输入的位置是 hdfs://machine1:portnumber

    在集群侧,相关属性在名为 core-site.xml 的配置文件中指定。如果您不知道要输入的 URI,请检查集群 core-site.xml 文件中的 fs.defaultFS 属性。

  8. Resource manager (资源管理器) 字段和 Resource manager scheduler (资源管理器调度器) 字段中,分别输入指向这两个服务的 URI。

    在集群侧,这两个服务共享同一台主机,但使用不同的默认端口号。例如,如果托管它们的计算机是 resourcemanager.company.com,则资源管理器的位置是 resourcemanager.company.com:8032,资源管理器调度器的位置是 resourcemanager.company.com:8030

    如果您不知道这些服务的托管计算机的名称,请检查集群 yarn-site.xml 配置文件中的 yarn.resourcemanager.hostname 属性。

  9. Job history (作业历史记录) 字段中,输入 JobHistory 服务的位置。使用此服务可以将当前作业的度量信息存储在 JobHistory 服务器中。

    相关属性在集群的 mapred-site.xml 配置文件中指定。对于您需要在此字段中输入的值,请检查此 mapred-site.xml 文件中的 mapreduce.jobhistory.address 属性。

  10. Staging directory (暂存目录) 字段中,输入在 Hadoop 集群中定义的、用于存储运行程序所创建临时文件的目录。

    相关属性在集群的 mapred-site.xml 文件中指定。更多详细信息,请检查此 mapred-site.xml 文件中的 yarn.app.mapreduce.am.staging-dir 属性。

  11. 选中 Use datanode hostname (使用数据节点主机名) 复选框,以便 Studio 可以通过其主机名访问集群的每个数据节点。

    这实际上会将集群的 dfs.client.use.datanode.hostname 属性设定为 true

  12. User name (用户名) 字段中,输入您希望 Studio 用于连接到 Hadoop 集群的用户身份验证名称。
  13. 由于要连接的 Hadoop 集群使用的是默认配置,因此请保留此向导中的其他字段或复选框,因为它们用于定义所有自定义 Hadoop 配置。
  14. 单击 Check services (检查服务) 按钮以验证 Studio 是否可以连接到您指定的 NameNode 以及 ResourceManager 服务。

    此时会弹出一个对话框,指示检查流程和连接状态。

    如果连接失败,您可以单击每个进度条末尾的 Error log (错误日志) 诊断连接问题。

  15. 检查表明连接成功后,单击 Finish (完成) 确认更改并关闭向导。

结果

新连接 (本示例中名为 my_cdh) 将显示在 Repository (存储库) 树视图的 Hadoop cluster (Hadoop 集群) 文件夹下。

然后,您可以继续基于此连接创建到不同 Hadoop元素 (如 HDFS 或 Hive) 的子连接。