如果使用的是 Google Dataproc 或 HDInsight,则跳过本节,因为这两个发行版在 Spark configuration (Spark 配置) 选项卡中配置此连接。
步骤
-
双击 tHDFSConfiguration 以打开其 Component (组件) 视图。
Spark 使用此组件连接到 HDFS 系统,依赖于作业的 jar 文件将传输至此系统。
-
如果您在 Repository (存储库) 中的 Hadoop cluster (Hadoop 集群) 节点下定义了 HDFS 连接元数据,请从 Property type (属性类型) 下拉列表中选择 Repository (存储库),然后单击 [...] 按钮以选择您使用 Repository content (存储库内容) 向导定义的 HDFS 连接。
-
在 Version (版本) 区域中,选择您需要连接的 Hadoop 发行版及其版本。
-
在 NameNode URI 字段中,输入托管集群 NameNode 服务的计算机的位置。 如果您使用 WebHDFS,位置应当是 webhdfs://masternode:portnumber;尚不支持带 SSL 的 WebHDFS。
-
在 Username (用户名) 字段中,输入连接至要使用的 HDFS 系统时所使用的身份验证信息。请注意,用户名必须与您在 Spark configuration (Spark 配置) 选项卡中设定的相同。