准备影片元数据 - 7.3

Talend Big Data Platform 入门指南

Version
7.3
Language
中文(简体)
Operating system
Big Data Platform
Product
Talend Big Data Platform
Module
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
Content
安装和升级
数据质量和准备 > 分析数据
数据质量和准备 > 清理数据
设计和开发
Last publication date
2023-08-02

此示例说明如何在 Repository (存储库) 中设置源文件 movies.csv 的元数据。存储库元数据可以在作业中使用,让您快速配置作业,而无需手动定义每个参数和 schema。

开始之前

  • 目录 C:\getting_started\input_data\ 中的源文件 movies.csv 已就绪。

步骤

  1. Repository (存储库) 树视图中,展开 Metadata (元数据) 节点,右键单击 File delimited (分隔文件),然后从上下文菜单中选择 Create file delimited (创建分隔文件) 以打开 New Delimited File (新建分隔文件) 向导。
  2. New Delimited File (新建分隔文件) 向导中,输入文件元数据的名称 (在本示例中,是 movies [影片]) 以及其他有用信息,以更好地描述文件元数据,然后单击 Next (下一步) 继续下一步的操作并定义文件的常规属性。

    在向导的这一步,Name (名称) 是唯一必填字段。将鼠标指针移到文件连接上时,Description (说明) 字段中提供的信息将显示为工具提示。

  3. File (文件) 字段中,指定源文件的路径,或单击 Browse (浏览) 以浏览到该文件。

    文件已加载,File Viewer (文件查看器) 区域显示文件摘要,您可以检查文件一致性、有无文件头以及文件的大体结构。

  4. Format (格式) 列表中,选择操作系统,然后单击 Next (下一步) 解析文件。
  5. Preview (预览) 选项卡上,选中 Set heading row as column names (将标题行设为列名) 复选框以从第一行获取文件列名,然后单击 Refresh Preview (刷新预览)

    此时将刷新文件预览,并自动选中 Rows To Skip (要跳过的行) 区域中的 Header (文件头) 复选框,并将要跳过的文件头行数加 1。

  6. 如果文件包含多个需要在文件解析中跳过的标题行,请在此字段中指定数字,然后再次单击 Refresh Preview (刷新预览)
  7. 单击 Next (下一步) 获取文件 schema。

    Description of the Schema (Schema 描述) 表显示生成的文件 schema。

  8. 将 schema 命名为 movies_schema 并检查文件 schema,然后根据实际需要进行编辑。

    在本示例中,增加 title (标题)url 列的长度。

  9. 单击 Finish (完成) 确认 schema 并关闭向导。

    创建的文件元数据显示在 Repository (存储库) 树视图中。

结果

现在影片文件元数据即已准备就绪,可供使用。接下来,您需要将创建的元数据应用于读取源文件的组件。