Apache Spark BatchのtOracleConfigurationプロパティ - 7.3

Oracle

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > DBコンポーネント > Oracle
データガバナンス > サードパーティーシステム > DBコンポーネント > Oracle
データクオリティとプレパレーション > サードパーティーシステム > DBコンポーネント > Oracle

このプロパティはSpark Batchジョブフレームワークで実行されているtOracleConfigurationを設定するために使います。

Spark Batch tOracleConfigurationコンポーネントはストレージファミリーとデータベースファミリーのコンポーネントです。

このフレームワーク内のコンポーネントは、ビッグデータ対応のサブスクリプションTalend 製品すべて、およびTalend Data Fabricで使用できます。

基本設定

[Property type] (プロパティタイプ)

[Built-In] (組み込み)または[Repository] (リポジトリー)のいずれか。

[Built-In] (組み込み): プロパティデータは一元的に保存されません。

[Repository] (リポジトリー): プロパティを保存するリポジトリーファイルを選択します。

[Connection type] (接続タイプ)

利用可能なドライバーは次のとおりです。

  • Oracle OCI: Oracleデータベースへのインターフェイスを提供する一連のC言語ソフトウェアAPIでOracle Callインターフェイスを使用するには、この接続タイプを選択します。

  • Oracle Custom: クラスター化されたデータベースにアクセスするには、この接続タイプを選択します。このタイプの接続では、[Username] (ユーザー名)および[Password] (パスワード)フィールドが非アクティブになり、表示されるURLフィールドに接続URLを入力する必要があります。

    このURLの有効な形式の詳細は、OracleドキュメンテーションでJDBC接続文字列を参照してください。

  • [Oracle Service Name] (Oracleサービス名): リモートデータベースへの接続時に指定するTNSエイリアスを使用するには、この接続タイプを選択します。

  • WALLET: Oracle Walletに認証情報を保管するには、この接続タイプを選択します。

  • Oracle SID: システム上の特定のデータベースを一意識別するには、この接続タイプを選択します。

[DB Version] (DBバージョン)

使うOracleデータベースのバージョンを選択します。

[Use tns file] (tnsファイルを使う)

tnsファイルに含まれているコンテキストのメタデータを使うには、このチェックボックスをオンにします。

1つのtnsファイルに多くのコンテキストが含まれている場合があります。

[TNS File] (TNSファイル): tnsファイルへのパスを手動で入力するか、フィールドの横にある[...]ボタンをクリックしてファイルを参照します。

[Select a DB Connection in Tns File] (TnsファイルでDB接続を選択する): [...]ボタンをクリックして、tnsファイルに保持されているすべてのコンテキストを表示し、目的のコンテキストを選択します。

Host (ホスト)

データベースサーバーのIPアドレスを入力します。

[Port] (ポート)

データベースサーバーのリスニングポート番号を入力します。

[Database] (データベース)

使用するデータベースの名前を入力します。

[Schema] (スキーマ)

スキーマの名前を入力します。

Username (ユーザー名)Password (パスワード)

ユーザー認証データを入力します。

パスワードを入力するには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符の間に入力し、[OK] をクリックして設定を保存します。

[Additional JDBC parameters] (その他のJDBCパラメーター)

作成するデータベース接続に追加の接続プロパティを指定します。プロパティはセミコロンで区切られ、各プロパティはキー/値ペアです。たとえば、encryption=1;clientname=Talendになります。

このフィールドは、[Use an existing connection] (既存の接続を使用)チェックボックスがオンの場合には使用できません。

詳細設定

[connection pool] (接続プール)

このエリアでは、各Sparkエグゼキューターに、同時に開いたままにする接続の数を制御するための接続プールを設定します。以下の接続プールパラメーターに与えられているデフォルト値は、ほとんどのユースケースでそのまま使用できます。

  • [Max total number of connections] (接続の最大合計数): 同時に開いたままにしておくことができる接続(アイドルまたはアクティブ)の最大数を入力します。

    デフォルトの数は8です。-1を入力すると、同時に開いておける接続の数が無制限となります。

  • [Max waiting time (ms)] (最大待機時間(ミリ秒)): 接続使用の要求に対して接続プールからレスポンスが返されるまでの最大待機時間を入力します。デフォルトでは-1(無制限)となっています。

  • [Min number of idle connections] (アイドル接続の最小数): 接続プール内に維持されるアイドル接続(使用されていない接続)の最小数を入力します。

  • [Max number of idle connections] (アイドル接続の最大数): 接続プール内に維持されるアイドル接続(使用されていない接続)の最大数を入力します。

[Evict connections] (接続の無効化)

接続プール内の接続を破棄する条件を定義するには、このチェックボックスをオンにします。オンにすると、以下のフィールドが表示されます。

  • [Time between two eviction runs] (2つの削除実行の間隔): コンポーネントが接続のステータスを確認し、アイドル状態の接続を破棄するまでの間隔(ミリ秒)を入力します。

  • [Min idle time for a connection to be eligible to eviction] (接続が削除可能になるまでの最小アイドル時間): アイドル接続が破棄されるまでの間隔(ミリ秒)を入力します。

  • [Soft min idle time for a connection to be eligible to eviction] (接続が削除可能になるまでのソフト最小アイドル時間): このパラメーターの機能は[Min idle time for a connection to be eligible to eviction] (接続が削除可能になるまでの最小アイドル時間)と同じですが、[Min number of idle connections] (アイドル接続の最小数)フィールドで定義したアイドル接続の最小数が維持されます。

使用方法

使用ルール

このコンポーネントは、他のコンポーネントに接続せずに使用されます。

tOracleConfigurationコンポーネントの設定は、同じジョブ内のOracle関連コンポーネントにのみ適用されます。つまり、tRunJobで呼び出される子ジョブまたは親ジョブで使用されるOracleコンポーネントは、この設定を再利用できません。

このコンポーネントは、所属するSpark Batchコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。

特に明記していない限り、このドキュメントのシナリオでは、[Standard] (標準)ジョブ、つまり従来の Talend データ統合ジョブだけを扱います。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark Configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
  • Yarnモード(YarnクライアントまたはYarnクラスター):
    • Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。

    • HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。

    • Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
    • Quboleを使用する場合は、ジョブにtS3Configurationを追加し、QuboleでS3システム内に実際のビジネスデータを書き込みます。tS3Configurationを使用しないと、このビジネスデータはQubole HDFSシステムに書き込まれ、クラスターをシャットダウンすると破棄されます。
    • オンプレミスのディストリビューションを使用する場合は、クラスターで使用されているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。

  • [Standalone mode] (スタンドアロンモード): tHDFSConfigurationまたはtS3Configurationなど、クラスターで使用されているファイルシステムに対応する設定コンポーネントを使用します。

    ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。