CDP Public Cloud Data HubでKnoxパラメーターを設定 - 7.3

Spark Batch

Version
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > ジョブデザイン > ジョブフレームワーク > Sparkバッチ
Last publication date
2024-02-22

Talend Studioでは、YARNクラスターモードのCDP Public Cloud Data HubインスタンスでKnoxを使ってSpark StreamingジョブとSpark Batchジョブを認証できます。Knoxの接続パラメーターは、ジョブの[Run] (実行)ビューの[Spark configuration] (Spark設定)タブか、[Hadoop Cluster Connection] (Hadoopクラスター接続)メタデータウィザードで完成させることができます。この設定はジョブごとに有効です。

このシナリオでは、[Hadoop Cluster Connection] (Hadoopクラスター接続)メタデータウィザードによる設定が使用されます。[Repository] (リポジトリー)でKnoxへの接続を設定すると、Sparkジョブの[Spark configuration] (Spark設定)ビューで必要になるたびにその接続を設定しなくても済みます。

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブによる設定の詳細は、[Defining the Cloudera connection parameters] (Cloudera 接続パラメーターを定義)をご覧ください。

このセクションの情報は、Talend Data Fabric、またはビッグデータ関連のTalend製品のいずれかにサブスクライブしているユーザーのみが対象です。

手順

  1. StudioのRepository (リポジトリー)ツリービューで、Metadata (メタデータ)を展開し、Hadoop cluster (Hadoopクラスター)を右クリックします。
  2. コンテキストメニューから[Create Hadoop cluster] (Hadoopクラスターを作成)を選択し、[Hadoop Cluster Connection] (Hadoopクラスターの接続)ウィザードを開きます。
  3. [Name] (名前)[Description] (説明)など、この接続に関する一般的な情報を入力し、[Next] (次へ)をクリックして[Hadoop Configuration Import Wizard] (Hadoop構成のインポートウィザード)ウィンドウを開き、使用するディストリビューション、そして手動または自動モードを選択します。
    重要: KnoxのサポートはCDP 7.1以降のみです。
  4. [Distribution] (ディストリビューション)ドロップダウンリストで[Cloudera]を、[Version] (バージョン)[Cloudera CDP 7.1]をそれぞれ選択します。
  5. [Enter manually Hadoop services] (Hadoopサービスを手動で入力)を選択し、[Finish] ()をクリックします。
  6. [Use Knox] (Knoxを使用)チェックボックスを選択し、Knox関連の接続パラメーターを入力します。
    • [Knox URL]: https://<host>/<datahub>/cdp-proxy-apiという形式に従って、Knox URLを入力します。Knox URLは、Livyサーバーの下にあるData Hubの[Endpoints] (エンドポイント)セクションのCloudera Management Consoleにあります。
      重要: R2021-07以前のパッチをインストール済みの場合、URLの末尾には、 /livyも、またはcdp-proxy-apiの後にいかなるサフィックスも含まれないようにする必要があります。R2021-08以降のパッチをインストール済みの場合、URLは末尾に /livyがあってもなくても動作します。
    • [Knox user] (Knoxユーザー): Cloudera Management ConsoleからのWorkloadユーザー名を入力します。
    • [Knox password] (Knoxパスワード): Cloudera Management ConsoleからのWorkloadパスワードを入力します。
    • Knox directory: type in the location storing the loaded file in HDFS.2514-
    • [Knox session timeout] (Knoxセッションのタイムアウト): Knox経由でジョブがクラスターに再接続するまでの待ち時間を指定します。
  7. オプション: Click Check services to verify that Talend Studio can connect to the services you have specified in this wizard.
  8. オプション: Click Export as context to create a new context with these data and save it in the repository.
  9. [Finish] (完了)をクリックして変更を確定し、ウィザードを閉じます。
    新しく設定されたHadoopの接続は、[Repository] (リポジトリー)ツリービューの[Hadoop cluster]フォルダーの下に表示されます。