Apache Spark StreamingのtJMSOutputプロパティ - Cloud - 8.0

JMS

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > メッセージングコンポーネント > JMS
データガバナンス > サードパーティーシステム > メッセージングコンポーネント > JMS
データクオリティとプレパレーション > サードパーティーシステム > メッセージングコンポーネント > JMS

これらのプロパティを使用て、Spark Streamingジョブフレームワーク内で実行されているtJMSOutputを設定します。

Spark StreamingtJMSOutputコンポーネントは、メッセージングファミリーに属しています。

このコンポーネントのストリーミングバージョンは、Talend Real Time Big Data PlatformおよびTalend Data Fabricで利用できます。

基本設定

[Module List] (モジュールリスト)

使用するライブラリーをリストから選択します。

[Context Provider] (コンテキストプロバイダー)

コンテキストURLを入力します。サンプル: com.tibco.tibjms.naming.TibjmsInitialContextFactory。ただし、使用するJMSサーバーに応じて構文が変わる場合があるのでご注意ください。

[Server URL] (サーバーURL)

構文を守りながら、サーバーURLを入力します。サンプル: tibjmsnaming://localhost:7222

[Connection Factory JDNI Name] (接続ファクトリのJDNI名)

JDNI名を入力します。

[Use Specified User Identity] (ユーザーアイデンティティを使用)

ログインが必要な場合は、チェックボックスをオンにしてログインとパスワードを入力します。

パスワードを入力するためには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符で囲んで入力して[OK]をクリックし、設定を保存します。

[Message Type] (メッセージタイプ)

メッセージのタイプを選択します: [Topic] (トピック)または[Queue] (キュー)

[To] (宛先)

サーバーが予期しているメッセージのターゲットを入力します。

[Processing Mode] (処理モード)

メッセージの処理モードを選択します。

[Raw Message] (生のメッセージ)または[Message Content] (メッセージコンテンツ)

[Schema] (スキーマ)および[Edit Schema] (スキーマを編集)

スキーマとは行の説明で、処理された後に次のコンポーネントに渡されるフィールドの数を定義するものです。

tJMSOutputスキーマは読み取り専用です。次のどちらかのカラム1つで構成されています: 処理モードが[Raw Message] (生のメッセージ)の場合は[message] (メッセージ)。または、このモードが[Message Content] (メッセージコンテンツ)の場合はmessageContent

[message] (メッセージ)カラムは入力に有効なJMSメッセージを必要とするため、tJavaコンポーネントを使用してこれらのJMSメッセージを書き込む必要があります。他方、messageContentカラムを使用する場合は、データの入力にWriteコンポーネントを使用できます。

詳細設定

[Delivery Mode] (配信モード)

データ配信の品質を確保するために、配信モードをこのリストから選択します。

[Not Persistent] (持続しない): このモードでは、データ交換中にデータ損失が発生する可能性があります。

[Persistent] (持続する): このモードでは、メッセージ配信の整合性が保証されます。

SSL/TLSの使用

SSLまたはTLS暗号化接続を有効にする場合は、このチェックボックスをオンにします。

次に、同じジョブ内のtSetKeystoreコンポーネントを使用して暗号化情報を指定する必要があります。

[Properties] (プロパティ)

テーブルの下にある[+]ボタンをクリックして、ユーザー認証に必要なユーザー名とパスワードが含まれている行を追加します。

[Connection pool] (接続プール)

このエリアでは、各Sparkエグゼキューターに、同時に開いたままにする接続の数を制御するための接続プールを設定するために使われます。以下の接続プールパラメーターに与えられているデフォルト値は、ほとんどのユースケースでそのまま利用できます。

  • [Max total number of connections] (接続の最大合計数): 同時に開いたままにしておくことができる接続(アイドルまたはアクティブ)の最大数を入力します。

    デフォルトの数は8です。-1を入力すると、同時に開いておける接続の数が無制限となります。

  • [Max waiting time (ms)] (最大待機時間(ミリ秒)): 接続使用の要求に対して接続プールからレスポンスが返されるまでの最大待機時間を入力します。デフォルトでは-1(無制限)となっています。

  • [Min number of idle connections] (アイドル接続の最小数): 接続プール内に維持されるアイドル接続(使用されていない接続)の最小数を入力します。

  • [Max number of idle connections] (アイドル接続の最大数): 接続プール内に維持されるアイドル接続(使用されていない接続)の最大数を入力します。

[Evict connections] (接続を無効化)

接続プール内の接続を破棄する条件を定義する場合は、このチェックボックスをオンにします。オンにすると、以下のフィールドが表示されます。

  • [Time between two eviction runs] (2つの削除実行の間隔): コンポーネントが接続のステータスを確認し、アイドル状態の接続を破棄するまでの間隔(ミリ秒)を入力します。

  • [Min idle time for a connection to be eligible to eviction] (接続が削除可能になるまでの最小アイドル時間): アイドル接続が破棄されるまでの間隔(ミリ秒)を入力します。

  • [Soft min idle time for a connection to be eligible to eviction] (接続が削除可能になるまでのソフト最小アイドル時間): このパラメーターの機能は[Min idle time for a connection to be eligible to eviction] (接続が削除可能になるまでの最小アイドル時間)と同じですが、[Min number of idle connections] (アイドル接続の最小数)フィールドで定義したアイドル接続の最小数が維持されます。

使用方法

使用ルール

このコンポーネントは終了コンポーネントとして使用され、入力リンクを必要とします。

このコンポーネントは、所属するSpark Streamingのコンポーネントのパレットと共に、Spark Streamingジョブを作成している場合にだけ表示されます。

特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
  • Yarnモード(YarnクライアントまたはYarnクラスター):
    • Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。

    • HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。

    • Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
    • オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。

  • [Standalone mode] (スタンドアロンモード): tHDFSConfigurationtS3Configurationなど、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。

    ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。