此示例说明如何在 Repository (存储库) 中设置源文件 movies.csv 的元数据。存储库元数据可以在作业中使用,让您快速配置作业,而无需手动定义每个参数和 schema。
步骤
-
在 Repository (存储库) 树视图中,展开 Metadata (元数据) 节点,右键单击 File delimited (分隔文件),然后从上下文菜单中选择 Create file delimited (创建分隔文件) 以打开 New Delimited File (新建分隔文件) 向导。
-
在 New Delimited File (新建分隔文件) 向导中,输入文件元数据的名称 (在本示例中,是 movies [影片]) 以及其他有用信息,以更好地描述文件元数据,然后单击 Next (下一步) 继续下一步的操作并定义文件的常规属性。
在向导的这一步,Name (名称) 是唯一必填字段。将鼠标指针移到文件连接上时,Description (说明) 字段中提供的信息将显示为工具提示。
-
在 File (文件) 字段中,指定源文件的路径,或单击 Browse (浏览) 以浏览到该文件。
文件已加载,File Viewer (文件查看器) 区域显示文件摘要,您可以检查文件一致性、有无文件头以及文件的大体结构。
-
从 Format (格式) 列表中,选择操作系统,然后单击 Next (下一步) 解析文件。
-
在 Preview (预览) 选项卡上,选中 Set heading row as column names (将标题行设为列名) 复选框以从第一行获取文件列名,然后单击 Refresh Preview (刷新预览)。
此时将刷新文件预览,并自动选中 Rows To Skip (要跳过的行) 区域中的 Header (文件头) 复选框,并将要跳过的文件头行数加 1。
-
如果文件包含多个需要在文件解析中跳过的标题行,请在此字段中指定数字,然后再次单击 Refresh Preview (刷新预览)。
-
单击 Next (下一步) 获取文件 schema。
Description of the Schema (Schema 描述) 表显示生成的文件 schema。
-
将 schema 命名为 movies_schema 并检查文件 schema,然后根据实际需要进行编辑。
在本示例中,增加 title (标题) 和 url 列的长度。
-
单击 Finish (完成) 确认 schema 并关闭向导。
创建的文件元数据显示在 Repository (存储库) 树视图中。