将文件上传到 HDFS - 7.1

Talend Big Data 入门指南

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
task
数据治理
设计和开发
EnrichPlatform
Talend Administration Center
Talend Installer
Talend Runtime
Talend Studio

将文件上传到 HDFS 以便 Big Data 作业能够读取和处理。

在此过程中,您将创建一个作业,将数据写入 Cloudera Hadoop 集群 (已如手动设置 Hadoop 连接中所述在 Repository (存储库) 中设置到此集群的连接) 的 HDFS 系统中。为 Big Data 执行数据集成任务中描述的用例需要此数据。对于用例所需的文件,请在本页面左侧面板Downloads (下载) 选项卡下载 tbd_gettingstarted_source_files.zip

开始之前

  • 已在 Repository (存储库)Hadoop cluster (Hadoop 集群) 节点设置与要使用的 Hadoop 集群的连接以及与此集群 HDFS 系统的连接。

    如果未执行此操作,请参阅手动设置 Hadoop 连接以及设置到 HDFS 的连接创建这些连接。

  • 要使用的 Hadoop 集群已正确配置且正在运行,并且您对该发行版和要使用的 HDFS 文件夹有适当的访问权限。

  • 确保执行 Talend 作业的客户端计算机可识别要使用的 Hadoop 集群节点的主机名。为此,请在客户端计算机的 hosts 文件中添加该 Hadoop 集群服务的 IP 地址/主机名映射条目。

    例如,如果 Hadoop Namenode 服务器的主机名是 talend-cdh550.weave.local,IP 地址是 192.168.x.x,则映射条目为 192.168.x.x talend-cdh550.weave.local

过程

  1. Repository (存储库) 树视图中,展开 Job Designs (作业设计) 节点,右键单击 Standard (标准) 节点,然后从上下文菜单中选择 Create folder (创建文件夹)
  2. New Folder (新建文件夹) 向导中,将作业文件夹命名为 getting_started 并单击 Finish (完成) 创建文件夹。
  3. 右键单击 getting_started 文件夹并从上下文菜单中选择 Create Standard Job (创建标准作业)
  4. New Job (新建作业) 向导中,为要创建的作业指定名称,并根据需要提供其他有用信息。

    例如,在 Name (名称) 字段输入 write_to_hdfs

    在向导的这一步,Name (名称) 是唯一必填字段。在 Repository (存储库) 树视图中将鼠标指针移动到作业上时,Description (描述) 字段中提供的信息将显示为悬停文本。

  5. 单击 Finish (完成) 创建作业。

    一个空白作业将在 Studio 中打开。

  6. Repository (存储库) 树视图中展开 Metadata (元数据) 下的 Hadoop cluster (Hadoop 集群) 节点。
  7. 展开您创建的 Hadoop 连接,然后展开其下的 HDFS 文件夹。在本示例中,是 my_cdh Hadoop 连接。
  8. 将 HDFS 连接从 HDFS 文件夹拖放到正在创建的作业的工作区中。在本示例中,此连接是 cdh_hdfs

    Components (组件) 窗口将显示,其中包含可在作业中直接重用此 HDFS 连接的所有组件。

  9. 选择 tHDFSPut 并单击 OK (确定) 以确认您的选择。

    Components (组件) 窗口将关闭,tHDFSPut 组件自动置于当前作业的工作区中,该组件已使用上一步中提到的 HDFS 连接的名称标记。

  10. 双击 tHDFSPut 打开其 Component (组件) 视图。

    已使用设置好并存储在 Repository (存储库) 中的 HDFS 连接配置,自动配置与要使用的 HDFS 系统的连接。因此,此选项卡中的相关参数变为只读。这些参数是:Distribution (发行版)Version (版本)NameNode URIUse Datanode Hostname (使用数据节点主机名)User kerberos authentication (用户 Kerberos 身份验证)Username (用户名)

  11. Local directory (本地目录) 字段中输入路径,或浏览到需要复制到 HDFS 的文件所存放的文件夹。

    有关影片及其导演的文件存储在此目录中。

  12. HDFS directory (HDFS 目录) 字段中输入路径,或浏览到 HDFS 中要存储文件的目标目录。

    如果目录不存在,则即时创建。

  13. 如果文件已存在于HDFS 的目标目录中,则从 Overwrite file (改写文件) 下拉列表中选择 always (始终) 以进行覆写。
  14. Files (文件) 表中,单击 [+] 按钮添加一行,以定义要复制的文件的选择标准。
  15. Filemask (文件掩码) 列中,输入以双引号括起的星号 (*),使 tHDFSPut 选择您在 Local directory (本地目录) 字段中指定的文件夹中存储的所有文件。
  16. New name (新名称) 列留空,即保留默认双引号,以使文件名在上传后保持不变。
  17. F6 运行作业。

    Run (运行) 视图会自动打开。其将显示作业的进度。

结果

作业完成后,可以在所指定目录的 HDFS 中找到上传的文件。