tDeltaLakeRowの標準プロパティ - Cloud - 8.0

Delta Lake

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
データガバナンス > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
データクオリティとプレパレーション > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
Last publication date
2024-02-28

これらのプロパティは、標準ジョブのフレームワークで実行されているtDeltaLakeRowを設定するために使われます。

標準tDeltaLakeRowコンポーネントは、データベースファミリーに属しています。

このフレームワーク内のコンポーネントは、すべてのサブスクリプションベースのTalend製品で使用できます。

注: このコンポーネントは、動的データベースコネクターの特定のバージョンです。データベース設定に関連するプロパティは、データベースタイプの選択に応じて異なります。動的データベースコネクターについては、DB Genericコンポーネントをご覧ください。

基本設定

データベース

目的のデータベースタイプをリストから選択し、[Apply] (適用)をクリックします。

[Property Type] (プロパティタイプ)

接続の詳細を設定する方法を選択します。

  • [Built-In] (組み込み): このコンポーネントの接続の詳細がローカルに設定されます。関連するすべての接続のプロパティ値を手動で指定する必要があります。

  • [Repository] (リポジトリー): [Repository] (リポジトリー) > [Metadata] (メタデータ)で一元的に保存された接続の詳細が、このコンポーネントによって再使用されます。

    このチェックボックスの横にある [...] ボタンをクリックし、表示された [Repository Content] (リポジトリーのコンテンツ)ダイアログボックスで、再使用する接続の詳細を選択すると、関連するすべての接続のプロパティに値が自動的に入力されます。

[Connection Component] (接続コンポーネント)ドロップダウンリストから、他の接続コンポーネントを選択した場合、これらのプロパティは、利用できません。

[Connection Component] (接続コンポーネント)

ドロップダウンリストから、接続を再利用するコンポーネントを選択します。

警告: このコンポーネントがテーブルに操作を実行するように設定されている場合は、このコンポーネントに対して自動コミット機能を有効にして既存の接続を使用ことを強く推奨します。[Advanced settings] (詳細設定)ビューで[Auto Commit] (自動コミット)オプションを選択して、tDeltaLakeConnectionのコンポーネントを使い、このタイプの接続を確立できます。

JDBC URL

使用するDelta LakeデータベースのJDBC URL。先頭はjdbc:spark://です(既に表示されています)。Talendが提供する8.0.1 R2023-05以降のTalend Studioマンスリーアップデートをインストール済みである場合、Delta LakeデータベースのJDBC URLは(既に入力されているとおり)jdbc:databricks//で始まります。

関連情報は、JDBC and ODBC drivers and configuration parametersConfigure JDBC URLをご覧ください。

注: Talendが提供する8.0.1 R2023-05以降のTalend Studioマンスリーアップデートがインストールされている場合、Delta Lakeコンポーネントの移行操作は行われません。この場合、既存のジョブのJDBC URLがjdbc:databricks//で始まるよう、そのJDBC URLとその関連設定を手動でアップデートしなければならいことがあります。

[Drivers] (ドライバー)

必要なドライバーJARをロードするには、このテーブルに記入してください。これを行うには、テーブルの下の[+]ボタンをクリックして、必要に応じてドライバーJAR用行数を増やします。セルを選択し、セルの右側にある[...]ボタンをクリックして、[Module] (モジュール)ダイアログボックスを開くと使用するドライバーJARを選択できます。Delta Lakeデータベースでは、(既に入力されているとおり)SparkJDBC42-2.6.14.1018.jarというJARドライバーが使われます。Talendが提供する8.0.1 R2023-05以降のTalend Studioマンスリーアップデートをインストール済みである場合、(既に入力されているとおり)atabricks-jdbc-{version_number}.jarドライバーが使われます。

詳細は、[Importing a database driver] (データベースドライバのインポート)をご覧ください。

注: Talendが提供する8.0.1 R2023-05以降のTalend Studioマンスリーアップデートがインストールされている場合、Delta Lakeコンポーネントの移行操作は行われません。この場合、既存のジョブでatabricks-jdbc-{version_number}.jarが使われるよう、ドライバーとその関連設定を手動でアップデートしなければならいことがあります。

[Driver Class] (ドライバークラス)

指定したドライバーのクラス名を二重引用符で囲んで入力します。SparkJDBC42-2.6.14.1018.jarドライバーの場合、入力する名前はcom.simba.spark.jdbc.Driverです(既に表示されています)。Talendが提供する8.0.1 R2023-05以降のTalend Studioマンスリーアップデートをインストール済みである場合は、databricks-jdbc-{version_number}.jarドライバーが使われ、入力されるドライバークラスは(既に入力されているとおり)com.databricks.client.jdbc.Driverとなります。

注: Talendが提供する8.0.1 R2023-05以降のTalend Studioマンスリーアップデートがインストールされている場合、Delta Lakeコンポーネントの移行操作は行われません。この場合、既存のジョブでcom.databricks.client.jdbc.Driverというドライバークラスが使われるよう、ドライバークラスとその関連設定を手動でアップデートしなければならいことがあります。

[User Id] (ユーザーID)[Password] (パスワード)

データベースユーザー認証データ。関連情報は、JDBC and ODBC drivers and configuration parametersUsername and password authenticationをご覧ください。

パスワードを入力するためには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符で囲んで入力して[OK]をクリックし、設定を保存します。

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

  • [Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

  • [Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。変更を加えると、スキーマは自動的に組み込みになります。

  • [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。

    変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

[Table Name] (テーブル名)

処理するテーブルの名前。

[Query Type] (クエリータイプ)[Query] (クエリー)

スキーマ定義に対応する必要がある、フィールドの適切な順序に特に注意を払うデータベースクエリーステートメントを指定します。

  • [Built-in] (組み込み): [Query] (クエリー)フィールドのクエリーステートメントを手動で入力するか、[Query] (クエリー)フィールドの横にある[...]ボタンをクリックして、SQLBuilderを使用してステートメントをグラフィカルに構築します。

  • [Repository] (リポジトリー): リポジトリーに保存されている関連クエリーを選択します。これを行うにはその横にある[...]ボタンをクリックします。表示された[Repository Content] (リポジトリーコンテンツ)ダイアログボックスで使用するクエリーを選択すると、[Query] (クエリー)フィールドが自動的に入力されます。

[Guess Query] (クエリーを推測)

このボタンをクリックすると、定義されたテーブルとスキーマに基づいて[Query] (クエリー)フィールドにクエリーが生成されます。

[Specify a data source alias] (データソースエイリアスを指定)

このチェックボックスをオンにして、[Data source alias] (データソースエイリアス)フィールドが表示されたら、データソース設定で定義した共有接続プールを使用するために、 Talend Runtime側で作成したデータソースのエイリアスを指定します。このオプションは、 Talend Runtime内にジョブをデプロイして実行する時にのみ機能します。

コンポーネント自体のデータベース設定を使用する場合、データソース接続はコンポーネントの末尾で閉じることになります。これを防ぐには、データソースエイリアスを指定して、共有データベース接続を使用してください。

[Connection Component] (接続コンポーネント)ドロップダウンリストから、他の接続コンポーネントを選択した場合、これらのプロパティは、利用できません。

[Die on error] (エラー発生時に強制終了)

このチェックボックスをオンにすると、エラー発生時にジョブの実行が停止されます。

エラーの発生した行をスキップし、エラーが発生していない行の処理を完了するには、このチェックボックスをオフにします。

エラーがスキップされる際、Row > Reject接続を使って、エラー行を収集できます。

詳細設定

[Propagate QUERY's recordset] (QUERYのレコードセットをプロパゲート)

クエリーの結果を出力フローにプロパゲートする場合は、このチェックボックスをオンにします。表示される[use column] (使用カラム)リストから、クエリー結果を挿入するカラムを選択する必要があります。

このオプションにより、コンポーネントは、先行コンポーネントのスキーマとは異なるスキーマを持つことができます。さらに、クエリーのレコードセットを保持するカラムはオブジェクトタイプに設定する必要があり、このコンポーネントの後には通常、tParseRecordSetのコンポーネントが続きます。

[Use PreparedStatement] (PreparedStatementの使用)

プレパレーション済みのステートメントを使用してデータベースをクエリーする場合は、このチェックボックスをオンにします。表示される[Set PreparedStatement Parameters] (PreparedStatementパラメーターの設定) テーブルで、 [Query] (クエリー)フィールドで定義されたSQLステートメント内に疑問符?で表される各パラメーターの値を指定します。

  • [Parameter Index] (パラメーターインデックス): SQLステートメント内のパラメーターの位置。

  • [Parameter Type] (パラメータータイプ): パラメーターのデータ型。

  • [Parameter Value] (パラメーターの値): パラメーターの値。

このプロパティの関連するユースケースは、PreparedStatementオブジェクトを使ってデータをクエリーをご覧ください。

[Commit every] (コミットする間隔)

ノードのバッチがデータベースにコミットされるまでに処理されているべき行数を指定します。

このオプションにより、トランザクションの質(ただしロールバックは含まない)、特に実行時のパフォーマンスの向上が保証されます。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスをオンにすると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。

グローバル変数

ERROR_MESSAGE

エラー発生時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。

QUERY

処理されるクエリーステートメント。これはFlow変数で、文字列を返します。

使用方法

使用ルール

このコンポーネントでは、DeltaLake接続を使うすべてのデータベースにDBクエリーの柔軟性が提供されており、使用可能なすべてのSQLクエリーが網羅されています。

[Dynamic settings] (ダイナミック設定)

[+]ボタンをクリックしてテーブルに行を追加し、[Code] (コード)フィールドにコンテキスト変数を入力して、ジョブ内で計画した複数の接続からデータベース接続をダイナミックに選択します。この機能は、データストラクチャーが同じでデータベースが異なるデータベーステーブルにアクセスする必要がある場合、特に、Talend Studioを介さずにジョブをデプロイおよび実行する必要がある時など、ジョブの設定を変更できない環境で作業している場合に役立ちます。

ダイナミックパラメーターの定義法を示すユースケースについては、コンテキストベースのダイナミック接続によってデータベースからデータを読み取りと、ダイナミックにロードされた接続パラメーターを使って異なるMySQLデータベースからデータを読み取りをご覧ください。ダイナミック設定とコンテキスト変数の詳細は、ダイナミックスキーマコンテキストグループを作成し、その中でコンテキスト変数を定義をご覧ください。