Talend Studioでは、YARNクラスターモードのCDP Public Cloud Data HubインスタンスでKnoxを使ってSpark StreamingジョブとSpark Batchジョブを認証できます。Knoxの接続パラメーターは、ジョブの[Run] (実行)ビューの[Spark configuration] (Spark設定)タブか、[Hadoop Cluster Connection] (Hadoopクラスター接続)メタデータウィザードで完成させることができます。この設定はジョブごとに有効です。
このシナリオでは、[Hadoop Cluster Connection] (Hadoopクラスター接続)メタデータウィザードによる設定が使用されます。[Repository] (リポジトリー)でKnoxへの接続を設定すると、Sparkジョブの[Spark configuration] (Spark設定)ビューで必要になるたびにその接続を設定しなくても済みます。
[Run] (実行)ビューの[Spark configuration] (Spark設定)タブによる設定の詳細は、[Defining the Cloudera connection parameters] (Cloudera 接続パラメーターを定義)をご覧ください。
このセクションの情報は、Talend Data Fabric またはビッグデータ対応のTalend製品のいずれかにサブスクライブしているユーザーだけを対象とします。また、Talend Open Studio for Big Dataユーザーは対象外です。
手順
-
StudioのRepository (リポジトリー)ツリービューで、Metadata (メタデータ)を展開し、Hadoop cluster (Hadoopクラスター)を右クリックします。
-
コンテキストメニューから[Create Hadoop cluster] (Hadoopクラスターを作成)を選択し、[Hadoop Cluster Connection] (Hadoopクラスターの接続)ウィザードを開きます。
-
Name (名前)やDescription (説明)など、この接続に関する一般的な情報を入力し、[Next] (次へ)をクリックして[Hadoop Configuration Import Wizard] (Hadoop構成のインポートウィザード)ウィンドウを開き、使用するディストリビューション、そして手動または自動モードを選択します。
重要: KnoxのサポートはCDP 7.1以降のみです。
-
[Distribution] (ディストリビューション)ドロップダウンリストで[Cloudera]を、[Version] (バージョン)で[Cloudera CDP 7.1]をそれぞれ選択します。
-
[Enter manually Hadoop services] (Hadoopサービスを手動で入力)を選択し、[Finish] ()をクリックします。
-
[Use Knox] (Knoxを使用)チェックボックスを選択し、Knox関連の接続パラメーターを入力します。
- オプション:
Click Check services to verify that Talend Studio can connect to the services you have specified in this wizard.
- オプション:
Click Export as context to create a new context with these data and save it in the repository.
-
[Finish] (完了)をクリックして変更を確定し、ウィザードを閉じます。
新しく設定されたHadoopの接続は、[Repository] (リポジトリー)ツリービューの[Hadoop cluster]フォルダーの下に表示されます。