Apache Spark StreamingのtRedshiftConfigurationプロパティ

これらのプロパティは、Spark Streamingのジョブのフレームワークで実行されているtRedshiftConfigurationを設定するために使われます。

Spark StreamingのtRedshiftConfigurationコンポーネントは、ストレージファミリーとデータベースファミリーに属しています。

このコンポーネントはTalend Real-Time Big Data PlatformとTalend Data Fabricで利用できます。

基本設定

[Property type] (プロパティタイプ)	[Built-in] (組み込み)と[Repository] (リポジトリー)のいずれかです。 [Built-In] (組み込み): 一元的に保存されるプロパティデータはありません。 [Repository] (リポジトリー): プロパティが保存されているリポジトリーファイルを選択します。
ドライバーバージョン	使用するRedshiftのドライバーとして、[Driver v1] (ドライバーv1)と[Driver v2] (ドライバーv2)のいずれかを選択します。情報メモ注: このオプションは、Talendが提供する8.0.1-R2022-06以降のStudio Talendマンスリーアップデートをインストール済みである場合のみ利用できます。詳細は管理者にお問い合わせください。
[Host] (ホスト)	Redshiftで、接続する必要のあるデータベースのエンドポイントを入力します。
[Port] (ポート)	Redshiftで、接続する必要のあるデータベースのポート番号を入力します。関連情報は、RedshiftのWebコンソールの[Cluster Database Properties] (クラスターデータベースプロパティ)エリアにあります。詳細は、Managing clusters consoleをご覧ください。
[Username] (ユーザー名)と[Password] (パスワード)	接続先とする必要のあるRedshiftデータベースに認証情報を入力します。パスワードを入力するためには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符で囲んで入力して[OK]をクリックし、設定を保存します。
[Database] (データベース)	Redshiftで、接続する必要のあるデータベースの名前を入力します。関連情報は、RedshiftのWebコンソールの[Cluster Database Properties] (クラスターデータベースプロパティ)エリアにあります。詳細は、Managing clusters consoleをご覧ください。
スキーマ	Redshiftで使用するデータベーススキーマの名前を入力します。デフォルトスキーマはPUBLICという名前です。 Redshiftに関するスキーマは、オペレーティングシステムのディレクトリーと似ています。Redshiftのスキーマについては、Schemasをご覧ください。
[Additional JDBC parameters] (追加のJDBCパラメーター) (フィールド)	作成する接続の追加のJDBCプロパティを指定します。プロパティはアンパサンド(&)で区切られ、各プロパティはキー-値ペアです。たとえば、ssl=true & sslfactory=com.amazon.redshift.ssl.NonValidatingFactoryになります。これは、SSLを使用して接続が作成されることを意味します。このオプションは、[Driver version] (ドライバーバージョン)ドロップダウンリストで[Driver v1] (ドライバーv1)が選択されているか、[Driver version] (ドライバーバージョン)ドロップダウンリストで[Driver v2] (ドライバーv2)と[Use String JDBC parameters] (文字列JDBCパラメーターを使用)が同時に選択されている場合のみ利用できます。
[Additional JDBC Parameters] (追加のJDBCパラメーター) (テーブル)	テーブル行でJDBCのプロパティを指定します。 JDBCプロパティを指定する場合は、このテーブルの下部にあるプラスボタンをクリックしてテーブルに行を追加し、Keyカラムにプロパティ名を、次にValueカラムにプロパティ値を入力します。このテーブルは、[Driver version] (ドライバーバージョン)ドロップダウンリストで[Driver v2] (ドライバーv2)が選択されており、[Use String JDBC parameters] (文字列JDBCパラメーターを使用)オプションが選択されていない場合に利用できます。情報メモ注: このオプションは、Talendが提供する8.0.1-R2022-03以降のStudio Talendマンスリーアップデートをインストール済みである場合のみ利用できます。詳細は管理者にお問い合わせください。
[S3 configuration] (S3設定)	S3に接続するための設定の詳細をSparkに使用させるtS3Configurationコンポーネントを選択します。使用するtS3Configurationが[S3 configuration] (S3設定)リストに表示されるように、このtS3Configurationコンポーネントと共にtRedshiftConfigurationを同じジョブにドロップする必要があります。
[S3 temp path] (S3一時パス)	Redshiftと送受信するデータの一時的な保存先にするS3内の場所を入力します。このパスは、tS3Configurationの[Basic settings] (基本設定)タブで設定する必要のある一時パスからは独立しています。

詳細設定

[Connection pool] (接続プール)	このエリアでは、各Sparkエグゼキューターに、同時に開いたままにする接続の数を制御するための接続プールを設定するために使われます。以下の接続プールパラメーターに与えられているデフォルト値は、ほとんどのユースケースでそのまま利用できます。 [Max total number of connections] (接続の最大合計数): 同時に開いたままにしておくことができる接続(アイドルまたはアクティブ)の最大数を入力します。デフォルトの数は8です。-1を入力すると、同時に開いておける接続の数が無制限となります。 [Max waiting time (ms)] (最大待機時間(ミリ秒)): 接続使用の要求に対して接続プールからレスポンスが返されるまでの最大待機時間を入力します。デフォルトでは-1(無制限)となっています。 [Min number of idle connections] (アイドル接続の最小数): 接続プール内に維持されるアイドル接続(使用されていない接続)の最小数を入力します。 [Max number of idle connections] (アイドル接続の最大数): 接続プール内に維持されるアイドル接続(使用されていない接続)の最大数を入力します。
[Evict connections] (接続を無効化)	接続プール内の接続を破棄する条件を定義する場合は、このチェックボックスを選択します。オンにすると、以下のフィールドが表示されます。 [Time between two eviction runs] (2つの削除実行の間隔): コンポーネントが接続のステータスを確認し、アイドル状態の接続を破棄するまでの間隔(ミリ秒)を入力します。 [Min idle time for a connection to be eligible to eviction] (接続が削除可能になるまでの最小アイドル時間): アイドル接続が破棄されるまでの間隔(ミリ秒)を入力します。 [Soft min idle time for a connection to be eligible to eviction] (接続が削除可能になるまでのソフト最小アイドル時間): このパラメーターの機能は[Min idle time for a connection to be eligible to eviction] (接続が削除可能になるまでの最小アイドル時間)と同じですが、[Min number of idle connections] (アイドル接続の最小数)フィールドで定義したアイドル接続の最小数が維持されます。

[Connection pool] (接続プール)

このエリアでは、各Sparkエグゼキューターに、同時に開いたままにする接続の数を制御するための接続プールを設定するために使われます。以下の接続プールパラメーターに与えられているデフォルト値は、ほとんどのユースケースでそのまま利用できます。

[Max total number of connections] (接続の最大合計数): 同時に開いたままにしておくことができる接続(アイドルまたはアクティブ)の最大数を入力します。

デフォルトの数は8です。-1を入力すると、同時に開いておける接続の数が無制限となります。
[Max waiting time (ms)] (最大待機時間(ミリ秒)): 接続使用の要求に対して接続プールからレスポンスが返されるまでの最大待機時間を入力します。デフォルトでは-1(無制限)となっています。
[Min number of idle connections] (アイドル接続の最小数): 接続プール内に維持されるアイドル接続(使用されていない接続)の最小数を入力します。
[Max number of idle connections] (アイドル接続の最大数): 接続プール内に維持されるアイドル接続(使用されていない接続)の最大数を入力します。

[Evict connections] (接続を無効化)

接続プール内の接続を破棄する条件を定義する場合は、このチェックボックスを選択します。オンにすると、以下のフィールドが表示されます。

[Time between two eviction runs] (2つの削除実行の間隔): コンポーネントが接続のステータスを確認し、アイドル状態の接続を破棄するまでの間隔(ミリ秒)を入力します。
[Min idle time for a connection to be eligible to eviction] (接続が削除可能になるまでの最小アイドル時間): アイドル接続が破棄されるまでの間隔(ミリ秒)を入力します。
[Soft min idle time for a connection to be eligible to eviction] (接続が削除可能になるまでのソフト最小アイドル時間): このパラメーターの機能は[Min idle time for a connection to be eligible to eviction] (接続が削除可能になるまでの最小アイドル時間)と同じですが、[Min number of idle connections] (アイドル接続の最小数)フィールドで定義したアイドル接続の最小数が維持されます。

使用方法

使用ルール	このコンポーネントは、他のコンポーネントに接続せずに使用されます。設定がランタイムにジョブ全体で使用されるように、tRedshiftConfiguration、および同じジョブで実行する他のRedshiftに関わるサブジョブをドロップする必要があります。 Redshiftでは一時データの保存にS3が使用されるので、S3設定が実行時にジョブ全体によって使用されるように、tS3Configurationコンポーネントと共にtRedshiftConfigurationを同じジョブにドロップする必要があります。このコンポーネントは、所属するSpark Streamingのコンポーネントのパレットと共に、Spark Streamingジョブを作成している場合にだけ表示されます。特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。
[Spark Connection] (Spark接続)	[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。 Yarnモード(YarnクライアントまたはYarnクラスター): Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。 HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。 Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。 [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。この接続は、ジョブごとに有効になります。

使用ルール

このコンポーネントは、他のコンポーネントに接続せずに使用されます。

設定がランタイムにジョブ全体で使用されるように、tRedshiftConfiguration、および同じジョブで実行する他のRedshiftに関わるサブジョブをドロップする必要があります。

Redshiftでは一時データの保存にS3が使用されるので、S3設定が実行時にジョブ全体によって使用されるように、tS3Configurationコンポーネントと共にtRedshiftConfigurationを同じジョブにドロップする必要があります。

このコンポーネントは、所属するSpark Streamingのコンポーネントのパレットと共に、Spark Streamingジョブを作成している場合にだけ表示されます。

特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。

Yarnモード(YarnクライアントまたはYarnクラスター):
- Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。
- HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。
- Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
- オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。
[Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchやtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。

こちらにフィードバックをお寄せください