Sparkモードの選択 - 7.3

Talend Data Fabric 入門ガイド

Version
7.3
Language
日本語
Operating system
Data Fabric
Product
Talend Data Fabric
Module
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
Content
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
Last publication date
2023-07-24

使用するSparkモードに応じて、ジョブをSparkモードにできます。

Sparkドキュメンテーションの「Spark設定」には、Sparkプロパティとそのデフォルト値の包括的なリストがあります。StudioでデザインしたSparkジョブでは、[Spark configuration] (Spark設定)タブ、またはジョブで使用するコンポーネントで明示的に定義したプロパティを除いて、このデフォルト設定が使用されます。

手順

  1. [Run] (実行)をクリックしてビューを開き、[Spark configuration] (Spark設定)タブをクリックして、Spark接続を設定するビューを開きます。
  2. [Use local mode] (ローカルモードを使用)チェックボックスをオンにしてジョブをローカルでテストします。

    ローカルモードでは、ジョブを実行するためのSpark環境がStudioによって即座に構築されます。計算の実行のために、ローカルマシンの各プロセッサーがSparkワーカーとして使用されます。

    このモードでは、ローカルファイルシステムが使われます。したがって、リモートファイルシステムへの接続情報を提供するtS3ConfigurationtHDFSConfigurationなどのコンポーネントがジョブ内に配置されている場合は、これらの設定コンポーネントを無効にします。

    これ以上は何も設定せずにジョブを起動できます。

  3. [Use local mode] (ローカルモードを使用)チェックボックスをオフにして、利用可能なHadoopディストリビューションのリストを表示し、使用するSparkクラスターに相当するディストリビューションをこのリストから選択します。
    ディストリビューションには以下が含まれます:
    • Databricks

    • Qubole

    • Amazon EMR

      このディストリビューションについてはTalendでは以下がサポートされます:
      • Yarnクライアント

      • Yarnクラスター

    • Cloudera

      このディストリビューションについてはTalendでは以下がサポートされます:
      • スタンドアロン

      • Yarnクライアント

      • Yarnクラスター

    • Google Cloud Dataproc

      このディストリビューションについてはTalendでは以下がサポートされます:
      • Yarnクライアント

    • Hortonworks

      このディストリビューションについてはTalendでは以下がサポートされます:
      • Yarnクライアント

      • Yarnクラスター

    • MapR

      このディストリビューションについてはTalendでは以下がサポートされます:
      • スタンドアロン

      • Yarnクライアント

      • Yarnクラスター

    • Microsoft HD Insight

      このディストリビューションについてはTalendでは以下がサポートされます:
      • Yarnクラスター

    • Cloudera Altus

      このディストリビューションについてはTalendでは以下がサポートされます:
      • Yarnクラスター

        Altusクラスターは、以下のクラウドプロバイダーで実行する必要があります:
        • Azure

          AzureでAltusがサポートされるのは、テクニカルプレビュー機能になります。

        • AWS

    データはAvroに依存してコンポーネント間のデータ移動を行っているので、Kryoを使ってAvroタイプを処理するようお使いのクラスターを設定することをお勧めします。これによってAvroに関するこの既知の問題を回避できるだけでなく、本来のパフォーマンス向上も実現できます。お使いのクラスターで設定が必要なSparkプロパティは:
    spark.serializer org.apache.spark.serializer.KryoSerializer

    このドロップダウンリストで、対応するディストリビューションが見つからない場合は、接続したいディストリビューションが Talend によって正式にサポートされていないことになります。その場合、[Custom] (カスタム)を選択してから、接続するクラスターの[Spark version] (Sparkバージョン)を選択し、[+]ボタンをクリックして、表示されるダイアログボックスで以下の選択を行います:

    1. [Import from existing version] (既存のバージョンからインポート)を選択すると、正式にサポートされているディストリビューションをベースとしてインポートしてから、ベースディストリビューションで提供されていない他の必要なjarファイルを追加できます。

    2. [Import from zip] (zipからインポート)を選択すると、使用するカスタムディストリビューションの設定zipファイルをインポートできます。Zipファイルには、Hadoop/Sparkの各種エレメントのライブラリーおよびライブラリーのインデックスファイルを含める必要があります。

      Talend Exchangeでは、 Talend コミュニティのメンバーがすぐに使える設定用zipファイルが共有されており、[Hadoop configuration] (Hadoop設定)リストからダウンロードして接続に直接利用できます。ただし、さまざまなHadoop関連のプロジェクトが継続的に進展しているため、このリストから対応するディストリビューションの設定Zipが見つからないことがあります。その場合は、[Import from existing version] (既存のバージョンからインポート)オプションを使って、既存のディストリビューションをベースとして取得し、ディストリビューションに必要なjarを追加することをお勧めします。

      Talendはカスタムバージョンを公式にサポートしていません。 Talend とそのコミュニティでは、Studioからカスタムバージョンに接続するための方法を紹介していますが、選択したバージョンの設定がスムーズに機能するかどうかは不明です。したがって、HadoopとSparkの経験が豊富でどのような問題でも自力で解決できない限り、そのような接続を設定することはお勧めしません。

    カスタムディストリビューションに接続して、その接続を共有する方法を段階的に説明するサンプルについては、Hortonworksをご覧ください。