将文件上传到 DBFS (Databricks 文件系统) - 7.2

Talend Big Data Platform 入门指南

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data Platform
task
数据治理
数据质量和准备 > 分析数据
数据质量和准备 > 清理数据
设计和开发
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio

将文件上传到 DBFS 以供 Big Data 作业读取和处理。DBFS 是此示例中要使用的大数据文件系统。

在此过程中,您将创建一个作业以将数据写入到 DBFS 系统中。对于用例所需的文件,请在) 页面左侧面板中的 Downloads (下载) 选项卡下载 tpbd_gettingstarted_source_files.zip

过程

  1. Repository (存储库) 树视图中,展开 Job Designs (作业设计) 节点,右键单击 Standard (标准) 节点,然后从上下文菜单中选择 Create folder (创建文件夹)
  2. New Folder (新建文件夹) 向导中,将作业文件夹命名为 getting_started 并单击 Finish (完成) 创建文件夹。
  3. 右键单击 getting_started 文件夹并从上下文菜单中选择 Create Standard Job (创建标准作业)
  4. New Job (新建作业) 向导中,为要创建的作业指定名称,并根据需要提供其他有用信息。

    例如,在 Name (名称) 字段输入 write_to_dbfs

    在向导的这一步,Name (名称) 是唯一必填字段。在 Repository (存储库) 树视图中将鼠标指针移动到作业上时,Description (描述) 字段中提供的信息将显示为悬停文本。

  5. 单击 Finish (完成) 创建作业。

    一个空白作业将在 Studio 中打开。

  6. 在此空作业的设计区中,输入 dbfs 以搜索与 DBFS 相关的组件。在显示的组件列表上,双击 tDBFSConnection 选中该组件。tDBFSConnection 已添加到设计区。
  7. 重复此操作,将 tDBFSPut 添加到设计区。
  8. 右键单击 tDBFSConnection,然后从显示的上下文菜单中选择 Trigger > On Subjob Ok (触发 > 子作业正常时)

    示例

  9. 单击 tDBFSPuttDBFSConnection 连接到 tDBFSPut
  10. 双击 tDBFSConnection 打开其 Component (组件) 视图。

    示例

  11. Endpoint (端点) 字段中,输入您的 Azure Databricks 工作区 URL 地址。此 URL 可在 Azure 门户的 Databricks 工作区页面的 Overview (概述) 部分中找到。例如,此 URL 看上去类似于 https://westeurope.azuredatabricks.net。
  12. 单击 Token (令牌) 字段旁的 [...] 按钮,以输入为您的 Databricks 用户帐户生成的身份验证令牌。您可以生成或在 Databricks 工作区的 User settings (用户设置) 页上找到此令牌。更多信息,请参阅 Azure 文档的令牌管理
  13. 双击 tDBFSPut 打开其 Component (组件) 视图。

    示例

  14. 选择 Use an existing connection (使用现有连接),使用 tDBFSConnection 中定义的连接信息。
  15. Local directory (本地目录) 字段中输入路径,或浏览到要复制到 DBFS 的文件所存放的文件夹。
  16. DBFS directory (DBFS 目录) 字段中输入路径,或浏览到 DBFS 中要存储文件的目标目录。根据 Databricks 文档中的 FileStore 章节内容,建议将此位置放置在 FileStore 文件夹中。

    如果目录不存在,则即时创建。

  17. 如果文件已存在于 DBFS 的目标目录中,则从 Overwrite file (改写文件) 下拉列表中选择 always (始终) 以进行改写。
  18. Files (文件) 表中,单击 [+] 按钮添加一行,以定义要复制的文件的选择标准。
  19. Filemask (文件掩码) 列中,输入以双引号括起的星号 (*),使 tDBFSPut 选择您在 Local directory (本地目录) 字段中指定的文件夹中存储的所有文件。
  20. New name (新名称) 列留空,即保留默认双引号,以使文件名在上传后保持不变。
  21. F6 运行作业。

    Run (运行)。存储在此视图中有关影片及其导演的文件将会自动打开。其将显示作业的进度。

结果

作业完成后,可以在所指定目录的 DBFS 中找到上传的文件。