将文件上传到 DBFS 以供 Big Data 作业读取和处理。DBFS 是此示例中要使用的大数据文件系统。
在此过程中,您将创建一个作业以将数据写入到 DBFS 系统中。对于用例所需的文件,请在) 页面左侧面板中的 Downloads (下载) 选项卡下载 tprtbd_gettingstarted_source_files.zip
步骤
-
在 Repository (存储库) 树视图中,展开 Job Designs (作业设计) 节点,右键单击 Standard (标准) 节点,然后从上下文菜单中选择 Create folder (创建文件夹)。
-
在 New Folder (新建文件夹) 向导中,将作业文件夹命名为 getting_started 并单击 Finish (完成) 创建文件夹。
-
右键单击 getting_started 文件夹并从上下文菜单中选择 Create Standard Job (创建标准作业)。
-
在 New Job (新建作业) 向导中,为要创建的作业指定名称,并根据需要提供其他有用信息。
例如,在 Name (名称) 字段输入 write_to_dbfs。
在向导的这一步,Name (名称) 是唯一必填字段。在 Repository (存储库) 树视图中将鼠标指针移动到作业上时,Description (描述) 字段中提供的信息将显示为悬停文本。
-
单击 Finish (完成) 创建作业。
-
在此空作业的设计区中,输入 dbfs 以搜索与 DBFS 相关的组件。在显示的组件列表上,双击 tDBFSConnection 选中该组件。tDBFSConnection 已添加到设计区。
-
重复此操作,将 tDBFSPut 添加到设计区。
-
右键单击 tDBFSConnection,然后从显示的上下文菜单中选择 。
示例
-
单击 tDBFSPut 将 tDBFSConnection 连接到 tDBFSPut。
-
双击 tDBFSConnection 打开其 Component (组件) 视图。
示例
-
在 Endpoint (端点) 字段中,输入您的 Azure Databricks 工作区 URL 地址。此 URL 可在 Azure 门户的 Databricks 工作区页面的 Overview (概述) 部分中找到。例如此 URL 可能类似 https://adb-$workspaceId.$random.azuredatabricks.net。
-
单击 Token (令牌) 字段旁的 [...] 按钮,以输入为您的 Databricks 用户帐户生成的身份验证令牌。您可以生成或在 Databricks 工作区的 User settings (用户设置) 页上找到此令牌。更多信息,请参阅 Azure 文档的个人访问令牌。
-
双击 tDBFSPut 打开其 Component (组件) 视图。
示例
-
选择 Use an existing connection (使用现有连接),使用 tDBFSConnection 中定义的连接信息。
-
在 Local directory (本地目录) 字段中输入路径,或浏览到要复制到 DBFS 的文件所存放的文件夹。
-
在 DBFS directory (DBFS 目录) 字段中输入路径,或浏览到 DBFS 中要存储文件的目标目录。根据 Databricks 文档中的 FileStore 章节内容,建议将此位置放置在 FileStore 文件夹中。
-
如果文件已存在于 DBFS 的目标目录中,则从 Overwrite file (改写文件) 下拉列表中选择 always (始终) 以进行改写。
-
在 Files (文件) 表中,单击 [+] 按钮添加一行,以定义要复制的文件的选择标准。
-
在 Filemask (文件掩码) 列中,输入以双引号括起的星号 (*),使 tDBFSPut 选择您在 Local directory (本地目录) 字段中指定的文件夹中存储的所有文件。
-
将 New name (新名称) 列留空,即保留默认双引号,以使文件名在上传后保持不变。
-
按 F6 运行作业。
Run (运行)。存储在此视图中有关影片及其导演的文件将会自动打开。其将显示作业的进度。
结果
作业完成后,可以在所指定目录的 DBFS 中找到上传的文件。