准备文件元数据 - 7.1

Talend Big Data 入门指南

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
task
数据治理
设计和开发
EnrichPlatform
Talend Administration Center
Talend Installer
Talend Runtime
Talend Studio

Repository (存储库) 中,设置存储在 HDFS 中的文件的元数据之后,您将可以直接在相关的 Big Data 组件中重用其 schema,而无需手动定义每个相关参数。

由于您需要处理的 movies.csv 文件已存储在正在使用的 HDFS 系统中,因此可以获取其 schema 以在 Repository (存储库) 中设置其元数据。

也可以获取 directors.txt 文件的 schema,但在下文所述的获取过程中有意忽略了,因为在本场景中,此 directors.txt 文件用于演示如何在作业中手动定义 schema。

开始之前

  • 您已启动 Talend Studio 并打开 Integration 透视图。

  • 源文件 movies.csvdirectors.txt 已如将文件上传到 HDFS中所述上传到 HDFS。

  • 已在 Repository (存储库)Hadoop cluster (Hadoop 集群) 节点设置与要使用的 Hadoop 集群的连接以及与此集群 HDFS 系统的连接。

    如果未执行此操作,请参阅手动设置 Hadoop 连接以及设置到 HDFS 的连接创建这些连接。

  • 要使用的 Hadoop 集群已正确配置且正在运行,并且您对该发行版和要使用的 HDFS 文件夹有适当的访问权限。

  • 确保安装有 Talend Studio 的客户端计算机可识别要使用的 Hadoop 集群的节点的主机名。为此,请在客户端计算机的 hosts 文件中添加该 Hadoop 集群服务的 IP 地址/主机名映射条目。

    例如,如果 Hadoop Namenode 服务器的主机名是 talend-cdh550.weave.local,IP 地址是 192.168.x.x,则映射条目为 192.168.x.x talend-cdh550.weave.local

过程

  1. Repository (存储库) 树视图中展开 Metadata (元数据) 下的 Hadoop cluster (Hadoop 集群) 节点。
  2. 展开您创建的 Hadoop 连接,然后展开其下的 HDFS 文件夹。

    在本示例中,是 my_cdh Hadoop 连接。

  3. 右键单击此 HDFS 文件夹中的 HDFS 连接,然后从上下文菜单中选择 Retrieve schema (获取 schema)

    在本场景中,此 HDFS 连接名为 cdh_hdfs

    此时将显示 Schema 向导,您可以浏览到 HDFS 中的文件。

  4. 展开文件树以显示您需要从中获取 schema 的 movies.csv 文件,然后将其选中。

    在本场景中,movies.csv 存储在以下目录中:/user/ychen/input_data

  5. 单击 Next (下一步) 在向导中显示获取到的 schema。

    影片数据的 schema 显示在向导中,数据的第一行自动用作列名。

    如果所用数据的第一行没有用作列名,则需要检查您在如设置到 HDFS 的连接中所述创建 HDFS 连接时,是如何设定 Header (文件头) 配置的。

  6. 单击 Finish (完成) 确认这些更改。

结果

您现在可以在 Repository (存储库) 树视图中查看所用 HDFS 连接下的文件元数据。