Apache Spark StreamingのtJMSInputプロパティ

これらのプロパティは、Spark Streamingジョブのフレームワークで実行されているtJMSInputを設定するために使われます。

Spark StreamingのtJMSInputコンポーネントは、メッセージングファミリーに属しています。

このコンポーネントはTalend Real-Time Big Data PlatformとTalend Data Fabricで利用できます。

基本設定

[Module List] (モジュールリスト)	使用するライブラリーをリストから選択します。
[Context Provider] (コンテキストプロバイダー)	コンテキストURLを入力します。サンプル: com.tibco.tibjms.naming.TibjmsInitialContextFactory。ただし、使用するJMSサーバーに応じて構文が変わる場合があるのでご注意ください。
[Server URL] (サーバーURL)	構文を守りながら、サーバーURLを入力します。サンプル: tibjmsnaming://localhost:7222。
[Connection Factory JDNI Name] (接続ファクトリのJDNI名)	JDNI名を入力します。
[Use Specified User Identity] (ユーザーアイデンティティを使用)	ログインが必要な場合は、チェックボックスをオンにしてログインとパスワードを入力します。パスワードを入力するためには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符で囲んで入力して[OK]をクリックし、設定を保存します。
[Message Type] (メッセージタイプ)	メッセージのタイプを選択します: [Topic] (トピック)または[Queue] (キュー)。
[Message From] (メッセージ送信元)	サーバーによって予期される通りにメッセージソースを入力します。これには、queue/Aやtopic/testtopicのように、ソースのタイプと名前が含まれている必要があります。このフィールドでは大文字と小文字が区別されます。
[Timeout for Next Message (in sec)] (次のメッセージのタイムアウト(秒))	次のメッセージに進むまでの秒数を入力します。
[Maximum Messages] (最大メッセージ数)	処理する最大メッセージ数を入力します。
[Message Selector Expression] (メッセージセレクターの式)	フィルターを設定するために使われます。
[Processing Mode] (処理モード)	メッセージの処理モードを選択します。 [Raw Message] (生のメッセージ)または[Message Content] (メッセージコンテンツ)
[Schema] (スキーマ)および[Edit schema] (スキーマを編集)	スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語の`line`を避けます。このコンポーネントのスキーマは読み取り専用です。[Edit schema] (スキーマを編集)をクリックすると、スキーマを表示できます。

詳細設定

SSL/TLSの使用	SSLまたはTLS暗号化接続を有効にする場合は、このチェックボックスを選択します。次に、同じジョブ内のtSetKeyStoreコンポーネントを使用して暗号化情報を指定する必要があります。
[Properties] (プロパティ)	テーブルの下にある[+]ボタンをクリックして、ユーザー認証に必要なユーザー名とパスワードが含まれている行を追加します。

SSL/TLSの使用

SSLまたはTLS暗号化接続を有効にする場合は、このチェックボックスを選択します。

次に、同じジョブ内のtSetKeyStoreコンポーネントを使用して暗号化情報を指定する必要があります。

[Properties] (プロパティ)

テーブルの下にある[+]ボタンをクリックして、ユーザー認証に必要なユーザー名とパスワードが含まれている行を追加します。

使用方法

使用ルール	このコンポーネントは、開始コンポーネントとして使用され、出力リンクを必要とします。このコンポーネントは、所属するSpark Streamingのコンポーネントのパレットと共に、Spark Streamingジョブを作成している場合にだけ表示されます。特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。
[Spark Connection] (Spark接続)	[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。 Yarnモード(YarnクライアントまたはYarnクラスター): Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。 HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。 Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。 [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。この接続は、ジョブごとに有効になります。

使用ルール

このコンポーネントは、開始コンポーネントとして使用され、出力リンクを必要とします。

このコンポーネントは、所属するSpark Streamingのコンポーネントのパレットと共に、Spark Streamingジョブを作成している場合にだけ表示されます。

特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。

Yarnモード(YarnクライアントまたはYarnクラスター):
- Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。
- HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。
- Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
- オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。
[Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。

こちらにフィードバックをお寄せください