Sparkモードの選択 - Cloud - 8.0

Delta Lake

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
データガバナンス > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
データクオリティとプレパレーション > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
Last publication date
2024-02-28

使用するSparkモードに応じて、ジョブをSparkモードにできます。

Sparkドキュメンテーションの「Spark設定」には、Sparkプロパティとそのデフォルト値の包括的なリストがあります。Talend StudioでデザインしたSparkジョブでは、[Spark configuration] (Spark設定)タブ、またはジョブで使用するコンポーネントで明示的に定義したプロパティを除いて、このデフォルト設定が使用されます。

手順

  1. [Run] (実行)をクリックしてビューを開き、[Spark configuration] (Spark設定)タブをクリックして、Spark接続を設定するビューを開きます。
  2. [Use local mode] (ローカルモードを使用)チェックボックスをオンにしてジョブをローカルでテストします。

    ローカルモードでは、ジョブを実行するためのSpark環境がTalend Studioによって即座に構築されます。計算の実行のために、ローカルマシンの各プロセッサーがSparkワーカーとして使用されます。

    このモードでは、ローカルファイルシステムが使われます。したがって、リモートファイルシステムへの接続情報を提供するtS3ConfigurationtAzureFSConfigurationなどのコンポーネントがジョブ内に配置されている場合は、これらの設定コンポーネントを無効にします。

    これ以上は何も設定せずにジョブを起動できます。

  3. [Use local mode] (ローカルモードを使用)チェックボックスをオフにして、利用可能なHadoopディストリビューションのリストを表示し、使用するSparkクラスターに相当するディストリビューションをこのリストから選択します。
    ディストリビューションには以下が含まれます:
    • Databricks

    • Amazon EMR

      このディストリビューションについてはTalendでは以下がサポートされます:
      • Yarnクライアント

      • Yarnクラスター

      重要: Amazon EMR上で、Delta Lakeはサポートされていません。
    • Cloudera

      このディストリビューションについてはTalendでは以下がサポートされます:
      • スタンドアロン

      • Yarnクライアント

      • Yarnクラスター

    • Google Cloud Dataproc

      このディストリビューションについてはTalendでは以下がサポートされます:
      • Yarnクライアント

    • Hortonworks

      このディストリビューションについてはTalendでは以下がサポートされます:
      • Yarnクライアント

      • Yarnクラスター

    • MapR

      このディストリビューションについてはTalendでは以下がサポートされます:
      • スタンドアロン

      • Yarnクライアント

      • Yarnクラスター

    • Microsoft HDInsight

      このディストリビューションについてはTalendでは以下がサポートされます:
      • Yarnクラスター

    • Cloudera Altus

      このディストリビューションについてはTalendでは以下がサポートされます:
      • Yarnクラスター

        Altusクラスターは、以下のクラウドプロバイダーで実行する必要があります:
        • Azure

          AzureでAltusがサポートされるのは、テクニカルプレビュー機能になります。

        • AWS

    データはAvroに依存してコンポーネント間のデータ移動を行っているので、Kryoを使ってAvroタイプを処理するようお使いのクラスターを設定することをお勧めします。これによってAvroに関するこの既知の問題を回避できるだけでなく、本来のパフォーマンス向上も実現できます。お使いのクラスターで設定が必要なSparkプロパティは:
    spark.serializer org.apache.spark.serializer.KryoSerializer

    このドロップダウンリストで対応するディストリビューションが見つからなければ、接続したいディストリビューションをTalendが公式にはサポートしていないことを意味します。その場合、[Custom] (カスタム)を選択してから、接続するクラスターの[Spark version] (Sparkバージョン)を選択し、[+]ボタンをクリックして、表示されるダイアログボックスで以下の選択を行います:

    1. [Import from existing version] (既存のバージョンからインポート)を選択すると、正式にサポートされているディストリビューションをベースとしてインポートしてから、ベースディストリビューションで提供されていない他の必要なjarファイルを追加できます。

    2. [Import from zip] (zipからインポート)を選択すると、使用するカスタムディストリビューションの設定zipファイルをインポートできます。Zipファイルには、Hadoop/Sparkの各種エレメントのライブラリーおよびライブラリーのインデックスファイルを含める必要があります。

      Talendはカスタムバージョンを公式にはサポートしていません。Talendとそのコミュニティでは、Talend Studioからカスタムバージョンに接続するための方法を紹介していますが、選択したバージョンの設定がスムーズに機能するかどうかは保証できません。そのような接続のセットアップは、HadoopおよびSparkについてどんな問題でもご自身で対処できる十分な経験をお持ちの場合のみ行ってください。

    カスタムディストリビューションの接続方法、および接続の共有方法のステップ例は、Hortonworksをご覧ください。