Talend Studioでは、CDP Public Cloud Data Hub on AWSインスタンスを持つリモートのJobServerにSpark StreamingとSpark Batchジョブをデプロイして実行できます。
手順
-
Cloudera Managementコンソールに接続し、[Data Hub Clusters] (データハブクラスター)タブの[Hardware] (ハードウェア)タブに移動します。
-
[Gateway] (ゲートウェイ)セクションの下に利用できるゲートウェイホストがあることを確認します。利用できるゲートウェイがない場合、新しくゲートウェイを作成する必要があります。
-
JobServerをダウンロードしてゲートウェイにインストールします。
-
AWS Management Consoleに接続し、[VPC Management Console]からJobServerに設定した[Inbound rules] (インバウンドルール)タブと[Outbound rules] (アウトバウンドルール)タブのポートが開いていることを確認します。
-
[Cloudera Manager]に接続し、[Clusters] (クラスター)タブからクラスターの全設定ファイルをダウンロードして、すべてローカルマシンの同じパスに解凍します。
-
[Import configuration from local files] (ローカルファイルから設定をインポート)オプションを使い、Talend Studioに接続してHadoop接続を手動で設定します。詳細は、Hadoop接続を設定の3番目のステップをご覧ください。
注:
- ドロップダウンリストで、どのClouderaバージョンも選択する必要がありません。Talend StudioがCDP Public Cloudのインスタンスクラスターから設定ファイルを使用するのと同じく、クラスターに定義されているランタイムバージョンが使用されます。
- SSLとKerberosを有効化する必要があります。
-
JobServerでジョブを実行します。詳細は、ジョブをリモートで実行を参照してください。
タスクの結果
Talend StudioでCDP Public Cloud Data Hub on AWSインスタンスを利用できるようになりました。