选择 Spark 模式 - 7.2

Talend Data Fabric 入门指南

Version
7.2
Language
中文(简体)
Product
Talend Data Fabric
Module
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
Content
数据治理
数据质量和准备 > 分析数据
数据质量和准备 > 清理数据
设计和开发

根据要使用的 Spark 集群,为您的作业选择 Spark 模式。

Spark 文档提供了 Spark Configuration (Spark 配置) 中的 Spark 属性及其默认值的详尽列表。Studio 中设计的 Spark 作业将会使用此默认配置,您在 Spark Configuration (Spark 配置) 选项卡中或在作业所用的组件中明确定义的属性除外。

步骤

  1. 单击 Run (运行) 以打开其视图,然后单击 Spark Configuration (Spark 配置) 选项卡显示其视图,以便配置 Spark 连接。
  2. 选择 Use local mode (使用本地模式) 复选框以在本地测试作业。

    在本地模式下,Studio 在其自身中动态构建 Spark 环境,以运行作业。本地机器的每个处理器被用作 Spark worker,以执行计算。

    在此模式下,使用本地文件系统;因此,如果您的作业中有向远程文件系统提供连接信息的 tS3ConfigurationtHDFSConfiguration 等配置组件,停用这些组件。

    您无需任何进一步配置就可运行作业。

  3. 清除 Use local mode (使用本地模式) 复选框,以显示可用 Hadoop 发行版的列表,根据要使用的 Spark 集群选择此列表中的分配。
    此发行版可以是:
    • Databricks

    • Qubole

    • Amazon EMR

      对于此发行版,Talend 支持:
      • Yarn client (Yarn 客户端)

      • Yarn cluster (Yarn 集群)

    • Cloudera

      对于此发行版,Talend 支持:
      • 独立

      • Yarn client (Yarn 客户端)

      • Yarn cluster (Yarn 集群)

    • Google Cloud Dataproc

      对于此发行版,Talend 支持:
      • Yarn client (Yarn 客户端)

    • Hortonworks

      对于此发行版,Talend 支持:
      • Yarn client (Yarn 客户端)

      • Yarn cluster (Yarn 集群)

    • MapR

      对于此发行版,Talend 支持:
      • 独立

      • Yarn client (Yarn 客户端)

      • Yarn cluster (Yarn 集群)

    • Microsoft HD Insight

      对于此发行版,Talend 支持:
      • Yarn cluster (Yarn 集群)

    • Cloudera Altus

      对于此发行版,Talend 支持:
      • Yarn cluster (Yarn 集群)

        您的 Altus 集群应在以下云提供商上运行:
        • Azure

          对 Altus on Azure 的支持属于技术预览功能。

        • AWS

    由于作业依赖 Avro 在其组件中移动数据,建议设置您的集群以使用 Kryo 处理 Avro 类型。此设置不但有助于避免该 Avro 已知问题,还能提升固有性能。要在您的集群中设置的 Spark 属性为:
    spark.serializer org.apache.spark.serializer.KryoSerializer

    如果在此下拉列表中找不到与您的发行版对应的发行版,这就意味着您要连接的发行版不受 Talend 官方支持。在这种情况下,可以选择 Custom (自定义),然后选择要连接集群的 Spark version (Spark 版本) 并单击 [+] 按钮以显示可用于执行以下操作的对话框:

    1. 选择 Import from existing version (从现有版本导入) 以导入官方支持的发行版作为基础,然后添加基础发行版未提供的其他必需 jar 文件。

    2. 选择 Import from zip (从 zip 导入) 以导入要使用的自定义发行版的配置 zip。此 zip 文件应包含不同 Hadoop/Spark 元素的库以及这些库的索引文件。

      Talend Exchange 中, Talend 社区的成员共享了一些现成的配置 zip 文件,您可以从此 Hadoop 配置 列表下载这些文件,并直接将其用于相应的连接中。但是,由于不同的 Hadoop 相关工程在不断发展,您可能无法从此列表中找到与您的发行版对应的配置 zip;然后,建议使用 Import from existing version (从现有版本导入) 选项将现有发行版作为基础来添加您的发行版所需的 jar 文件。

      请注意,自定义版本不受 Talend 官方支持。Talend 及其社区为您提供了从 Studio 连接到自定义版本的机会,但无法保证您可轻松配置所选择的任何版本。因此,只有当您有足够的 Hadoop 和 Spark 经验来自行处理任何问题时,才能尝试建立这样的连接。

    有关如何连接自定义发行版并共享此连接的逐步示例说明,请参阅Hortonworks (仅提供英文版)