Sparkモードの選択 - 7.3

Delta Lake

EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
ジョブデザインと開発 > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
データガバナンス > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
データクオリティとプレパレーション > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components

使用するSparkモードに応じて、ジョブをSparkモードにできます。

Sparkドキュメンテーションの「Spark設定」には、Sparkプロパティとそのデフォルト値の包括的なリストがあります。StudioでデザインしたSparkジョブでは、[Spark Configuration] (Spark設定)タブ、またはジョブで使用するコンポーネントで明示的に定義したプロパティを除いて、このデフォルト設定が使用されます。

手順

  1. [Run] (実行)をクリックしてビューを開き、[Spark Configuration] (Spark設定)タブをクリックして、Spark接続を設定するビューを開きます。
  2. [Use local mode] (ローカルモードを使用)チェックボックスをオンにしてジョブをローカルでテストします。

    ローカルモードでは、ジョブを実行するためのSpark環境がStudioによって即座に構築されます。計算の実行のために、ローカルマシンの各プロセッサーがSparkワーカーとして使用されます。

    このモードでは、ローカルファイルシステムが使われます。したがって、リモートファイルシステムへの接続情報を提供するtS3ConfigurationtHDFSConfigurationなどのコンポーネントがジョブ内に配置されている場合は、これらの設定コンポーネントを無効にします。

    これ以上は何も設定せずにジョブを起動できます。

  3. [Use local mode] (ローカルモードを使用)チェックボックスをオフにして、使用可能なHadoopディストリビューションのリストを表示し、使用するSparkクラスターに相当するディストリビューションをこのリストから選択します。
    ディストリビューションには以下が含まれます:
    • Databricks

    • Qubole

    • Amazon EMR

      このディストリビューションについては、Talendでは以下がサポートされます。
      • Yarn client (Yarnクライアント)

      • Yarnクラスター

    • Cloudera

      このディストリビューションについては、Talendでは以下がサポートされます。
      • Standalone (スタンドアロン)

      • Yarnクライアント

      • Yarnクラスター

    • Google Cloud Dataproc

      このディストリビューションについては、Talendでは以下がサポートされます。
      • Yarn client (Yarnクライアント)

    • Hortonworks

      このディストリビューションについては、Talendでは以下がサポートされます。
      • Yarn client (Yarnクライアント)

      • Yarnクラスター

    • MapR

      このディストリビューションについては、Talendでは以下がサポートされます。
      • Standalone (スタンドアロン)

      • Yarnクライアント

      • Yarnクラスター

    • Microsoft HD Insight

      このディストリビューションについては、Talendでは以下がサポートされます。
      • Yarn cluster (Yarnクラスター)

    • Cloudera Altus

      このディストリビューションについては、Talendでは以下がサポートされます。
      • Yarn cluster (Yarnクラスター)

        Altusクラスターは、以下のクラウドプロバイダーで実行する必要があります:
        • Azure

          AzureでAltusがサポートされるのは、テクニカルプレビュー機能になります。

        • AWS

    データはAvroに依存してコンポーネント間のデータ移動を行っているので、Kryoを使ってAvroタイプを処理するようお使いのクラスターを設定することをお勧めします。これによってAvroに関するこの既知の問題を回避できるだけでなく、本来のパフォーマンス向上も実現できます。お使いのクラスターで設定が必要なSparkプロパティは:
    spark.serializer org.apache.spark.serializer.KryoSerializer

    このドロップダウンリストで、対応するディストリビューションが見つからない場合は、接続したいディストリビューションが Talend によって正式にサポートされていないことになります。その場合、[Custom] (カスタム)を選択してから、接続するクラスターのSparkバージョンを選択し、[+] ボタンをクリックして、表示されるダイアログボックスで以下の選択を行います:

    1. [Import from existing version] (既存のバージョンからインポート)を選択すると、正式にサポートされているディストリビューションをベースとしてインポートしてから、ベースディストリビューションで提供されていない他の必要なjarファイルを追加できます。

    2. [Import from zip] (zipからインポート)を選択すると、使用するカスタムディストリビューションの設定zipファイルをインポートできます。Zipファイルには、Hadoop/Sparkの各種エレメントのライブラリーおよびライブラリーのインデックスファイルを含める必要があります。

      Talend Exchangeでは、 Talend コミュニティのメンバーがすぐに使える設定用ZIPファイルを共有しています。ファイルはこの[Hadoop configuration] (Hadoop設定)リストからダウンロードし、接続に直接使用できます。ただし、様々なHadoop関連のプロジェクトが継続的に進展しているため、このリストから対応するディストリビューションの設定Zipが見つからないことがあります。その場合は、[Import from existing version] (既存のバージョンからインポート)オプションを使って、既存のディストリビューションをベースとして取得し、ディストリビューションに必要なjarを追加することをお勧めします。

      カスタムバージョンは Talend によって正式にサポートされていない点に留意してください。 Talend とそのコミュニティでは、Studioからカスタムバージョンに接続するための方法を紹介していますが、選択したバージョンの設定がスムーズに機能するかどうかは不明です。そのような接続のセットアップは、HadoopおよびSparkについてどんな問題でもご自身で対処できる十分な経験をお持ちの場合のみ行ってください。

    カスタムディストリビューションに接続して、その接続を共有する方法を段階的に説明する例については、Hortonworksを参照してください。