设置到 HDFS 的连接 - 7.1

Talend Big Data 入门指南

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
task
数据治理
设计和开发
EnrichPlatform
Talend Administration Center
Talend Installer
Talend Runtime
Talend Studio
连接到 Repository (存储库) 中的 HDFS 之后,您将可以在相关作业中重用此连接。

开始之前

  • Repository (存储库)Hadoop cluster (Hadoop 集群) 节点,我们已经设置好了一个Hadoop集群的连接,将要使用的HDFS 系统就容纳于这个 Hadoop 集群之中。

    有关如何创建此连接的更多详细信息,请参阅手动设置 Hadoop 连接

  • 要使用的 Hadoop 集群已正确配置且正在运行,并且您已拥有对该发行版及其 HDFS 的适当访问权限。

  • 确保安装有 Talend Studio 的客户端计算机可识别要使用的 Hadoop 集群的节点的主机名。为此,请在客户端计算机的 hosts 文件中添加该 Hadoop 集群服务的 IP 地址/主机名映射条目。

    例如,如果 Hadoop Namenode 服务器的主机名是 talend-cdh550.weave.local,IP 地址是 192.168.x.x,则映射条目为 192.168.x.x talend-cdh550.weave.local

过程

  1. Repository (存储库) 树视图中展开 Metadata (元数据) 下的 Hadoop cluster (Hadoop 集群) 节点,右键单击要使用的 Hadoop 连接,然后从上下文菜单中选择 Create HDFS (创建 HDFS)
  2. 在打开的连接向导中,填写您需要创建的连接的通用属性,例如 Name (名称)Purpose (用途)Description (描述)
  3. 完成后单击 Next (下一步)。第二步要求您填写 HDFS 连接数据。

    User name (用户名) 属性将自动预填充为继承自您在先前步骤中所选 Hadoop 连接的值。

    Row separator (行分隔符)Field separator (字段分隔符) 属性使用默认值。

  4. 选中 Set heading row as column names (将标题行设定为列名) 复选框,以使用 HDFS 文件标题行中的数据来定义此文件的列名。

    然后 Header (文件头) 复选框将自动选中,Header (文件头) 字段将填充为 1。这意味着文件的第一行将忽略,不作为数据主体,而是用作文件的列名。

  5. 单击 Check (检查) 以验证您的连接。

    此时会弹出一条消息,指示连接是否成功。

  6. 单击 Finish (完成) 确认这些更改。

结果

Repository (存储库) 树视图的 Hadoop cluster (Hadoop 集群) 节点下,新的 HDFS 连接现在将可用。然后您可以使用它来定义和集中存储在连接的 HDFS 系统中的文件的 schema,以便在 Talend 作业中重用这些 schema。