两个输出组件配置为将期望的影片数据和拒绝的影片数据写入 Azure ADLS Gen1 文件夹中的不同目录。
开始之前
- 确保已在 Databricks 中正确创建并运行 Spark 集群。有关更多信息,请参阅 Databricks 文档中的创建 Databricks 工作区。
-
确保已经为用于访问 Azure Data Lake Storage Gen1 系统的用户名和密码添加 Spark 属性,每行添加一项。
spark.hadoop.dfs.adls.oauth2.access.token.provider.type ClientCredential
spark.hadoop.dfs.adls.oauth2.client.id <your_app_id>
spark.hadoop.dfs.adls.oauth2.credential <your_authentication_key>
spark.hadoop.dfs.adls.oauth2.refresh.url https://login.microsoftonline.com/<your_app_TENANT-ID>/oauth2/token
- 您有一个 Azure 帐户。
- 已正确创建要使用的 Azure Data Lake Storage 服务,并且您的 Azure Active Directory 具有访问它的适当权限。您可以询问您的 Azure 系统管理员以确认这一点,或遵循此文章中名为“授予将要使用的应用程序对 ADLS Gen1 文件夹的访问权限”部分中描述的步骤。
步骤
-
双击 tAzureFSConfiguration 以打开其 Component (组件) 视图。
示例
-
从 Azure FileSystem (Azure 文件系统) 下拉列表中,选择 Azure Datalake Storage。显示专用于 Azure ADLS Gen2 的参数。
-
在 Client ID (客户端 ID) 和 Client key (客户端密钥) 字段中,输入在注册您目前正在开发的作业使用的应用程序时生成的身份验证 ID 和身份验证密钥 (客户端密钥),以访问 Azure Data Lake Storage。
-
在 Token endpoint (令牌端点) 字段中,复制粘贴从 Azure 门户中 App registrations (应用程序注册) 页访问的 Endpoints (端点) 列表获得的 OAuth 2.0 令牌端点。
-
双击接收 out1 连接的 tFileOutputParquet 组件。
其 Basic settings (基本设置) 视图在 Studio 的下半部分打开。
-
选中 Define a storage configuration component (定义存储配置组件) 复选框以重用 tAzureFSConfiguration 提供的配置,以便连接到要使用的 ADLS Gen2 文件系统。
-
在 Folder/File (文件夹/文件) 字段中,输入需要写入结果的目录。在本场景中,目录为 /ychen/movie_library,将用于接收包含影片导演姓名的记录。
-
从 Action (操作) 下拉列表中选择 Overwrite (改写)。这样会改写已存在的目标目录。
-
重复相同的操作,以配置用于接收 reject (拒绝) 连接的另一个 tFileOutputParquet 组件,区别在于需要在 Folder/File (文件夹/文件) 字段中将目录设置为 /ychen/movie_library/reject。
-
在 Run (运行) 视图中,单击 Spark Configuration (Spark 配置) 选项卡以打开其视图。
-
清除 Use local mode (使用本地模式) 复选框。
-
从 Property Type (属性类型) 下拉列表中,选择 Repository (存储库),然后单击 ... 按钮,并从 Repository Content (存储库内容) 列表中,选择您之前在 与您的大数据平台建立连接 中定义的 movie_library 连接元数据。
-
单击 OK (确定) 以确认您的选择。Spark Configuration (Spark 配置) 选项卡中的字段会自动填充来自此连接元数据的参数。
-
按 F6 运行作业。
结果
Run (运行) 视图将在 Studio 的下半部分自动打开。
完成后,您可以在 Microsoft Azure Storage Explorer 等工具中检查输出是否已写入 ADLS Gen1 文件夹。