Sparkモードの選択 - 7.0

Talend Data Fabric入門ガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Data Fabric
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
使用するSparkモードに応じて、ジョブをSparkモードにすることができます。

手順

  1. [Run] (実行)をクリックしてビューを開き、[Spark Configuration] (Spark設定)タブをクリックして、Spark接続を設定するビューを開きます。
  2. [Use local mode] (ローカルモードを使用)チェックボックスを選択してジョブをローカルでテストします。

    ローカルモードでは、ジョブを実行するためのSpark環境がStudioによって即座に構築されます。計算の実行のために、ローカルマシンの各プロセッサーがSparkワーカーとして使用されます。

    このモードでは、ローカルファイルシステムが使われます。したがって、リモートファイルシステムへの接続情報を提供するtS3ConfigurationtHDFSConfigurationなどのコンポーネントがジョブ内に配置されている場合は、これらの設定コンポーネントを無効にします。

    これ以上は何も設定せずにジョブを起動できます。

  3. [Use local mode] (ローカルモードを使用)チェックボックスをオフにして、使用可能なHadoopディストリビューションのリストを表示し、使用するSparkクラスターに相当するディストリビューションをこのリストから選択します。
    ディストリビューションには以下が含まれます:
    • Amazon EMR

      このディストリビューションについてはTalendでは以下がサポートされます:
      • Yarnクライアント

      • Yarnクラスター

    • Cloudera

      このディストリビューションについてはTalendでは以下がサポートされます:
      • スタンドアロン

      • Yarnクライアント

      • Yarnクラスター

    • Google Cloud Dataproc

      このディストリビューションについてはTalendでは以下がサポートされます:
      • Yarnクライアント

    • Hortonworks

      このディストリビューションについてはTalendでは以下がサポートされます:
      • Yarnクライアント

      • Yarnクラスター

    • MapR

      このディストリビューションについてはTalendでは以下がサポートされます:
      • スタンドアロン

      • Yarnクライアント

      • Yarnクラスター

    • Microsoft HD Insight

      このディストリビューションについてはTalendでは以下がサポートされます:
      • Yarnクラスター

    • Cloudera Altus

      このディストリビューションについてはTalendでは以下がサポートされます:
      • Yarnクラスター

    このドロップダウンリストで、対応するディストリビューションが見つからない場合は、接続先のディストリビューションが Talend によって正式にサポートされていないことになります。その場合、[Custom] (カスタム)を選択してから、接続するクラスターの[Spark version] (Sparkバージョン)を選択し、[+]ボタンをクリックして、表示されるダイアログボックスで以下の選択を行います:

    1. [Import from existing version] (既存のバージョンからインポート)を選択すると、正式にサポートされているディストリビューションをベースとしてインポートしてから、ベースディストリビューションで提供されていない他の必要なjarファイルを追加できます。

    2. [Import from zip] (zipからインポート)を選択すると、使用するカスタムディストリビューションの設定zipファイルをインポートできます。Zipファイルには、Hadoop/Sparkの各種エレメントのライブラリーおよびライブラリーのインデックスファイルを含める必要があります。

      Talend Exchangeでは、 Talend コミュニティのメンバーがすぐに使える設定用Zipファイルが共有されており、[Hadoop configuration] (Hadoop設定)リストからダウンロードして接続に直接使用できます。ただし、さまざまなHadoop関連のプロジェクトが継続的に進展しているため、このリストから対応するディストリビューションの設定Zipが見つからないことがあります。その場合は、[Import from existing version] (既存のバージョンからインポート)オプションを使って、既存のディストリビューションをベースとして取得し、ディストリビューションに必要なjarを追加することをお勧めします。

      Talend はカスタムバージョンを公式にサポートしていません。 Talend とそのコミュニティでは、Studioからカスタムバージョンに接続するための方法を紹介していますが、選択したバージョンの設定がスムーズに機能するかどうかは不明です。したがって、HadoopとSparkの経験が豊富でどのような問題でも自力で解決できない限り、そのような接続を設定することはお勧めしません。

    カスタムディストリビューションに接続して、その接続を共有する方法を段階的に説明する例については、Connecting to a custom Hadoop distributionを参照してください。