如果在 Repository (存储库) 中建立与给定大数据平台的连接,此后每次需要使用该平台时,无需再配置与该平台的连接。
本示例中使用的大数据平台是 Databricks V5.4 集群,以及 Azure Data Lake Storage Gen2。
关于此任务
首先,您需要在集群端配置 Databricks 集群,然后在 Studio 中设置连接元数据。
步骤
-
在 Databricks 集群页面的 Configuration (配置) 选项卡上,向下滚动到页面底部的 Spark 选项卡。
示例
-
单击 Edit (编辑) 使此页面上的字段可编辑。
-
在此 Spark 选项卡中,输入与用于访问 Azure 存储系统的用户名和密码有关的 Spark 属性,每行输入一项:
-
用于提供帐号密钥的参数:
spark.hadoop.fs.azure.account.key.<storage_account>.dfs.core.windows.net <key>
该密钥与要使用的存储帐户相关联。该密钥可在此存储帐户的 Access keys (访问密钥) 部分中找到。每个帐户有两个密钥,默认情况下,可以使用任意一个进行访问。
确保要使用的帐户具有适当的读/写权限。
-
如果要使用的 ADLS 文件系统尚不存在,请添加以下参数:
spark.hadoop.fs.azure.createRemoteFileSystemDuringInitialization true
-
如果需要使用 Databricks 运行 Spark Streaming 作业,请在同一
Spark 选项卡中添加以下属性,以定义默认的 Spark 序列化程序。如果您不打算运行 Spark Streaming 作业,则可以忽略此步骤。
spark.serializer org.apache.spark.serializer.KryoSerializer
-
重新启动 Spark 集群。
-
在您的 Databricks 集群页面的 Spark UI 选项卡中,单击 Environment (环境) 以显示属性列表,并验证在先前步骤中添加的每个属性是否都在该列表中。
-
在 studio 的 Repository (存储库) 树视图中,展开 Metadata (元数据),然后右键单击 Hadoop cluster (Hadoop 集群)。
-
从上下文菜单中选择 Create Hadoop cluster (创建 Hadoop 集群),打开 Hadoop cluster connection (Hadoop 集群连接) 向导。
-
填写有关此连接的一般信息,例如其 Name (名称) 和 Description (描述),然后单击 Next (下一步) 打开 Hadoop configuration import wizard (Hadoop 配置导入向导) 窗口,该窗口可以帮助您导入现成的配置 (如有)。
-
选中 Enter manually Hadoop services (手动输入 Hadoop 服务) 复选框,手动输入正在创建的 Databricks 连接的配置信息。
-
单击 Finish (完成) 关闭此导入向导。
-
从 Distribution (发行版) 列表中,选择 Databricks,然后从 Version (版本) 列表中,选择 5.4 (包括 Apache Spark 2.4.3、Scala 2.11)。
-
在 Endpoint (端点) 字段中,输入您的 Azure Databricks 工作区 URL 地址。此 URL 可在 Azure 门户的 Databricks 工作区页面的 Overview (概述) 部分中找到。例如此 URL 可能类似 https://adb-$workspaceId.$random.azuredatabricks.net。
-
在 Cluster ID (集群 ID) 字段中,输入要使用的 Databricks 集群 ID。此 ID 是您的 Spark 集群的 spark.databricks.clusterUsageTags.clusterId 属性的值。您可以在集群的 Spark UII视图中的 Environment (环境) 选项卡中的属性列表中找到此属性。
还可以从您的 Databricks 集群的 URL 中轻松找到此 ID。在 URL 中,它紧随在 cluster/ 之后。
-
单击 Token (令牌) 字段旁的 [...] 按钮,以输入为您的 Databricks 用户帐户生成的身份验证令牌。您可以生成或在 Databricks 工作区的 User settings (用户设置) 页上找到此令牌。更多信息,请参阅 Azure 文档的个人访问令牌。
-
在 DBFS dependencies folder (DBFS 依赖关系文件夹) 字段中,输入 Databricks 文件系统上用于在运行时存储与您作业有关的依赖关系的目录,并在此目录的结尾放一个斜杠 (/)。例如,输入 /jars/ 以在名为 jars 的文件夹中存储依赖关系。如果文件夹不存在,则即时创建。
-
单击 Finish (完成) 确认更改并关闭向导。