如果在 Repository (存储库) 中建立与给定 Hadoop 发行版的连接,此后每次需要使用相同的 Hadoop 发行版时,即无需配置该连接。
开始之前
-
确保安装有 Talend Studio 的客户端计算机可识别要使用的 Hadoop 集群的节点的主机名。为此,请在客户端计算机的 hosts 文件中添加该 Hadoop 集群服务的 IP 地址/主机名映射条目。
例如,如果 Hadoop Namenode 服务器的主机名是 talend-cdh550.weave.local,IP 地址是 192.168.x.x,则映射条目为 192.168.x.x talend-cdh550.weave.local。
-
要使用的 Hadoop 集群已正确配置,并且正在运行。
本示例中将用到的 Cloudera Hadoop 集群是 Yarn 模式下的 CDH V5.5 集群,应用发行版的默认配置而不启用 Kerberos 安全性。有关 CDH V5.5 发行版默认配置的更多详细信息,请参阅在集群中部署 CDH 5 和 CDH5 中使用的默认端口。
过程
-
在 studio 的 Repository (存储库) 树视图中,展开 Metadata (元数据),然后右键单击 Hadoop cluster (Hadoop 集群)。
-
从上下文菜单中选择 Create Hadoop cluster (创建 Hadoop 集群),打开 Hadoop cluster connection (Hadoop 集群连接) 向导。
-
填写有关此连接的一般信息,例如 Name (名称) 和 Description (描述),然后单击 Next (下一步) 打开 [Hadoop configuration import wizard (Hadoop 配置导入向导)] 窗口,可以帮助您导入现成的配置 (如有)。
-
选中 Enter manually Hadoop services (手动输入 Hadoop 服务) 复选框,手动输入正在创建的 Hadoop 连接的配置信息。
-
单击 Finish (完成) 关闭此导入向导。
-
从 Distribution (发行版) 列表中选择 Cloudera,然后从 Version (版本) 列表中选择 Cloudera CDH5.5 (YARN 模式)。
-
在 Namenode URI 字段中输入指向用作待用 Cloudera Hadoop 集群的 NameNode 服务的计算机的 URI。
NameNode 是 Hadoop 系统的主节点。例如,假设您选择了一台名为 machine1 的计算机作为 NameNode,要输入的位置是 hdfs://machine1:portnumber。
在集群侧,相关属性在名为 core-site.xml 的配置文件中指定。如果您不知道要输入的 URI,请检查集群 core-site.xml 文件中的 fs.defaultFS
属性。
-
在 Resource manager (资源管理器) 字段和 Resource manager scheduler (资源管理器调度器) 字段中,分别输入指向这两个服务的 URI。
在集群侧,这两个服务共享同一台主机,但使用不同的默认端口号。例如,如果托管它们的计算机是 resourcemanager.company.com,则资源管理器的位置是 resourcemanager.company.com:8032,资源管理器调度器的位置是 resourcemanager.company.com:8030。
如果您不知道这些服务的托管计算机的名称,请检查集群 yarn-site.xml 配置文件中的 yarn.resourcemanager.hostname
属性。
-
在 Job history (作业历史记录) 字段中,输入 JobHistory 服务的位置。使用此服务可以将当前作业的度量信息存储在 JobHistory 服务器中。
相关属性在集群的 mapred-site.xml 配置文件中指定。对于您需要在此字段中输入的值,请检查此 mapred-site.xml 文件中的 mapreduce.jobhistory.address
属性。
-
在 Staging directory (暂存目录) 字段中,输入在 Hadoop 集群中定义的、用于存储运行程序所创建临时文件的目录。
相关属性在集群的 mapred-site.xml 文件中指定。更多详细信息,请检查此 mapred-site.xml 文件中的 yarn.app.mapreduce.am.staging-dir
属性。
-
选中 Use datanode hostname (使用数据节点主机名) 复选框,以便 Studio 可以通过其主机名访问集群的每个数据节点。
这实际上会将集群的 dfs.client.use.datanode.hostname
属性设定为 true。
-
在 User name (用户名) 字段中,输入您希望 Studio 用于连接到 Hadoop 集群的用户身份验证名称。
-
由于要连接的 Hadoop 集群使用的是默认配置,因此请保留此向导中的其他字段或复选框,因为它们用于定义所有自定义 Hadoop 配置。
-
单击 Check services (检查服务) 按钮以验证 Studio 是否可以连接到您指定的 NameNode 以及 ResourceManager 服务。
此时会弹出一个对话框,指示检查流程和连接状态。
如果连接失败,您可以单击每个进度条末尾的 Error log (错误日志) 诊断连接问题。
-
检查表明连接成功后,单击 Finish (完成) 确认更改并关闭向导。
结果
新连接 (本示例中名为 my_cdh) 将显示在 Repository (存储库) 树视图的 Hadoop cluster (Hadoop 集群) 文件夹下。
然后,您可以继续基于此连接创建到不同 Hadoop元素 (如 HDFS 或 Hive) 的子连接。