配置如何读取输入数据 - 7.2

Talend Open Studio for Big Data 入门指南

EnrichVersion
7.2
EnrichProdName
Talend Open Studio for Big Data
EnrichPlatform
Talend Studio
task
数据治理
设计和开发
DBFS 组件和两个 tFileInputDelimited 组件配置为将数据从 DBFS 加载到作业中。

开始之前

过程

  1. 双击 tDBFSConnection 打开其 Component (组件) 视图。

    示例

  2. Endpoint (端点) 字段中,输入您的 Azure Databricks 工作区 URL 地址。此 URL 可在 Azure 门户的 Databricks 工作区页面的 Overview (概述) 部分中找到。例如,此 URL 看上去类似于 https://westeurope.azuredatabricks.net。
  3. 单击 Token (令牌) 字段旁的 [...] 按钮,以输入为您的 Databricks 用户帐户生成的身份验证令牌。您可以生成或在 Databricks 工作区的 User settings (用户设置) 页上找到此令牌。更多信息,请参阅 Azure 文档的令牌管理
  4. 双击 tDBFSGet 打开其 Component (组件) 视图。

    示例

  5. 选择 Use an existing connection (使用现有连接),使用 tDBFSConnection 中定义的连接信息。
  6. DBFS directory (DBFS 目录) 字段中,输入存储影片及其导演相关文件的 DBFS 目录路径。
  7. Local directory (本地目录) 字段中输入路径,或浏览到用于存储从 DBFS 下载的文件的文件夹。

    如果目录不存在,则即时创建。

  8. 如果文件已存在于本地文件系统的目标目录中,则从 Overwrite file (改写文件) 下拉列表中选择 always (始终) 以进行改写。
  9. Files (文件) 表中,单击 [+] 按钮添加一行,以定义要复制的文件的选择标准。
  10. Filemask (文件掩码) 列中,输入以双引号括起的星号 (*),使 tDBFSGet 选择您在 Local directory (本地目录) 字段中指定的文件夹中存储的所有文件。
  11. New name (新名称) 列留空,即保留默认双引号,以使文件名在上传后保持不变。
  12. 展开 Repository (存储库)Metadata (元数据) 节点下的 File delimited (分隔文件) 节点,显示按照 准备影片元数据 中的说明而设置的 movies (影片) schema 元数据节点。
  13. 将此 schema 元数据节点拖放到作业工作区中的 movie (影片) tFileInputDelimited 组件上。
  14. 双击 movie (影片) tFileInputDelimited 组件打开其 Component (组件) 视图。

    tFileInputDelimited 已自动从 Repository (存储库) 重用影片元数据,以在其 Basic settings (基本设置) 视图中定义相关参数。

  15. 单击 File name/Stream (文件名/流) 字段打开 Edit parameter using repository (使用存储库编辑参数) 对话框以更新字段分隔符。
    tFileInputDelimited 重用了为 File delimited (分隔文件) 元数据定义的默认文件位置。您需要对该位置进行更改,以通过从 DBFS 下载该文件时所用的存储目录读取 movie (影片) 文件。
  16. 选择 Change to built-in property (更改为内置属性),然后单击 OK (确定) 确认您的选择。
    File name/Stream (文件名/流) 字段变为可编辑。
  17. 输入从 DBFS 下载的 movie (影片) 文件的存储目录
  18. 双击 director (导演) tFileInputDelimited 组件打开其 Component (组件) 视图。
  19. 单击 Edit schema (编辑 schema) 旁边的 [...] 按钮打开 schema 编辑器。
  20. 单击 [+] 按钮两次添加两行,并在 Column (列) 列中,将其分别重命名为 IDName (名称)
  21. 在弹出对话框单击 OK (确定) 以确认这些更改并接受此Schema向后续组件的传播。
  22. File /Stream (文件名/流) 字段中,输入影片导演相关数据的存储目录。
  23. Field separator (字段分隔符) 字段中,输入以双引号括起的逗号 (,)。

结果

tFileInputDelimited 组件现在配置为将影片数据和导演数据加载到作业。