AWSでCDP Public Cloud Data Hubを使ってSparkジョブを設定および実行 - Cloud - 8.0

Cloudera

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > ジョブデザイン > Hadoopディストーション > Cloudera

Talend Studioでは、CDP Public Cloud Data Hub on AWSインスタンスを持つリモートのJobServerにSpark StreamingとSpark Batchジョブをデプロイして実行できます。

始める前に

以下のことを確認します:

手順

  1. Cloudera Managementコンソールに接続し、[Data Hub Clusters] (データハブクラスター)タブの[Hardware] (ハードウェア)タブに移動します。
  2. [Gateway] (ゲートウェイ)セクションの下に利用できるゲートウェイホストがあることを確認します。利用できるゲートウェイがない場合、新しくゲートウェイを作成する必要があります。
  3. JobServerをダウンロードしてゲートウェイにインストールします。
  4. AWS Management Consoleに接続し、[VPC Management Console]からJobServerに設定した[Inbound rules] (インバウンドルール)タブと[Outbound rules] (アウトバウンドルール)タブのポートが開いていることを確認します。
  5. [Cloudera Manager]に接続し、[Clusters] (クラスター)タブからクラスターの全設定ファイルをダウンロードして、すべてローカルマシンの同じパスに解凍します。
  6. [Import configuration from local files] (ローカルファイルから設定をインポート)オプションを使い、Talend Studioに接続してHadoop接続を手動で設定します。詳細は、Hadoop接続を設定の3番目のステップをご覧ください。
    注:
    • ドロップダウンリストで、どのClouderaバージョンも選択する必要がありません。Talend StudioがCDP Public Cloudのインスタンスクラスターから設定ファイルを使用するのと同じく、クラスターに定義されているランタイムバージョンが使用されます。
    • SSLとKerberosを有効化する必要があります。
  7. JobServerでジョブを実行します。詳細は、ジョブをリモートで実行を参照してください。

タスクの結果

Talend StudioでCDP Public Cloud Data Hub on AWSインスタンスを利用できるようになりました。