メイン コンテンツをスキップする 補完的コンテンツへスキップ

AWSでCDP Public Cloud Data Hubを使ってSparkジョブを設定および実行

Studio Talendでは、CDP Public Cloud Data Hub on AWSインスタンスを持つリモートのJobServerにSpark StreamingとSpark Batchジョブをデプロイして実行できます。Talend JobServer

始める前に

以下のことを確認します:

手順

  1. Cloudera Managementコンソールに接続し、[Data Hub Clusters] (データハブクラスター)タブの[Hardware] (ハードウェア)タブに移動します。
  2. [Gateway] (ゲートウェイ)セクションの下に利用できるゲートウェイホストがあることを確認します。利用できるゲートウェイがない場合、新しくゲートウェイを作成する必要があります。
  3. Talend JobServerをダウンロードしてゲートウェイにインストールします。
  4. AWS Management Consoleに接続し、[VPC Management Console]からTalend JobServerに設定した[Inbound rules] (インバウンドルール)タブと[Outbound rules] (アウトバウンドルール)タブのポートが開いていることを確認します。
  5. [Cloudera Manager]に接続し、[Clusters] (クラスター)タブからクラスターの全設定ファイルをダウンロードして、すべてローカルマシンの同じパスに解凍します。
  6. [Import configuration from local files] (ローカルファイルから設定をインポート)オプションを使い、Studio Talendに接続してHadoop接続を手動で設定します。詳細は、Hadoop接続を設定の3番目のステップをご覧ください。
    情報メモ注:
    • ドロップダウンリストで、どのClouderaバージョンも選択する必要がありません。Studio TalendがCDP Public Cloudのインスタンスクラスターから設定ファイルを使用するのと同じく、クラスターに定義されているランタイムバージョンが使用されます。
    • SSLとKerberosを有効化する必要があります。
  7. Talend JobServerでジョブを実行します。詳細は、ジョブをリモートで実行をご覧ください。

タスクの結果

Studio TalendでCDP Public Cloud Data Hub on AWSインスタンスを利用できるようになりました。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。