在 Repository (存储库) 中,设置存储在 HDFS 中的文件的元数据之后,您将可以直接在相关的 Big Data 组件中重用其 schema,而无需手动定义每个相关参数。
由于您需要处理的 movies.csv 文件已存储在正在使用的 HDFS 系统中,因此可以获取其 schema 以在 Repository (存储库) 中设置其元数据。
也可以获取 directors.txt 文件的 schema,但在下文所述的获取过程中有意忽略了,因为在本场景中,此 directors.txt 文件用于演示如何在作业中手动定义 schema。
开始之前
-
您已启动 Talend Studio 并打开 Integration 透视图。
-
源文件 movies.csv 和 directors.txt 已如将文件上传到 HDFS中所述上传到 HDFS。
-
已在 Repository (存储库) 的 Hadoop cluster (Hadoop 集群) 节点设置与要使用的 Hadoop 集群的连接以及与此集群 HDFS 系统的连接。
如果未执行此操作,请参阅手动设置 Hadoop 连接以及设置到 HDFS 的连接创建这些连接。
-
要使用的 Hadoop 集群已正确配置且正在运行,并且您对该发行版和要使用的 HDFS 文件夹有适当的访问权限。
-
确保安装有 Talend Studio 的客户端计算机可识别要使用的 Hadoop 集群的节点的主机名。为此,请在客户端计算机的 hosts 文件中添加该 Hadoop 集群服务的 IP 地址/主机名映射条目。
例如,如果 Hadoop Namenode 服务器的主机名是 talend-cdh550.weave.local,IP 地址是 192.168.x.x,则映射条目为 192.168.x.x talend-cdh550.weave.local。