tDeltaLakeInput標準プロパティ - 7.3

Delta Lake

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
データガバナンス > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
データクオリティとプレパレーション > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components

このプロパティはStandardジョブフレームワークで実行されているtDeltaLakeInputを設定するために使います。

Standard tDeltaLakeInputコンポーネントはデータベースファミリーのコンポーネントです。

このフレームワークのコンポーネントは、すべてのサブスクリプションベースのTalend製品で使用できます。

注: このコンポーネントは、動的データベースコネクターの特定のバージョンです。データベース設定に関連するプロパティは、データベースタイプの選択に応じて異なります。動的データベースコネクターについては、動的データベースコンポーネントを参照してください。
注: このコンポーネントは、TalendのR2020-09以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。

基本設定

データベース

データベースのタイプをリストから選択し、[Apply] (適用)をクリックします。

[Property Type] (プロパティタイプ)

接続の詳細を設定する方法を選択します。

  • [Built-In] (組み込み): このコンポーネントの接続の詳細がローカルに設定されます。関連するすべての接続プロパティの値を手動で指定する必要があります。

  • [Repository] (リポジトリー): [Repository] (リポジトリー) > [Metadata] (メタデータ)で一元的に保存された接続の詳細が、このコンポーネントによって再使用されます。このチェックボックスのとなりにある [...] ボタンをクリックし、表示された [Repository Content] (リポジトリーの内容)ダイアログボックスで、再使用する接続の詳細を選択すると、関連するすべての接続のプロパティに値が自動的に入力されます。

[Connection Component] (接続コンポーネント)ドロップダウンリストから他の接続コンポーネントを選択した場合、このプロパティは使用できません。

このアイコンをクリックすると、データベース接続ウィザードが開き、コンポーネント[Basic settings] (基本設定)ビューに設定したデータベース接続パラメーターが保存されます。

データベース接続パラメーターの設定と保管の詳細は、Talend Studioユーザーガイドを参照してください。

[Connection Component] (接続コンポーネント)

このコンポーネントで再利用するデータベース接続を開くコンポーネントを選択します。

JDBC URL

使用するDelta LakeデータベースのJDBC URL。先頭はjdbc:spark://です(既に表示されています)。関連情報は、JDBC and ODBC drivers and configuration parametersConfigure JDBC URLを参照してください。

ドライバー

必要なドライバーJARをロードするには、このテーブルに記入してください。これを行うには、テーブルの下の[+]ボタンをクリックして、必要に応じてドライバーJAR用行数を増やします。セルを選択し、セルの右側にある[...]ボタンをクリックして、[Module] (モジュール)ダイアログボックスを開くと使用するドライバーJARを選択できます。このコンポーネントにはドライバーjar SparkJDBC42-2.6.14.1018.jarが必要であり、デフォルトで追加されています。

詳細は、[Importing a database driver] (データベースドライバのインポート)を参照してください。

ドライバーのクラス

指定したドライバーのクラス名を二重引用符で囲んで入力します。SparkJDBC42-2.6.14.1018.jarドライバーの場合、入力する名前はcom.simba.spark.jdbc.Driverです(既に表示されています)。

[User Id] (ユーザーID)[Password] (パスワード)

データベースのユーザー認証データ。関連情報は、JDBC and ODBC drivers and configuration parametersUsername and password authenticationを参照してください。

パスワードを入力するには、パスワードフィールドの横にある[...]ボタンをクリックし、ポップアップダイアログボックスにパスワードを二重引用符の間に入力し、[OK] をクリックして設定を保存します。

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

  • [Built-in] (組み込み): そのコンポーネントのみのスキーマを作成して、ローカルに保存します。

  • [Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。
注: 変更を加えると、スキーマは自動的に組み込みになります。
  • [View schema] (スキーマの表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続を更新): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーのコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

このコンポーネントはダイナミックスキーマ機能の利点を備えているので、ソースファイルから不明なカラムを取得したり、各カラムを個別にマッピングしなくてもソースからカラムを一括してコピーしたりできます。ダイナミックスキーマの詳細は、『 Talend Studio ユーザーガイド』を参照してください。

このダイナミックスキーマ機能は、テーブルの不明なカラムを取得する目的で設計されており、この目的に限り使用をお勧めします。テーブルの作成で使用することは勧められていません。

[Table Name] (テーブル名)

データの取得元となるテーブルの名前。

[Query Type] (クエリータイプ)および[Query] (クエリー)

スキーマ定義に対応する必要がある、フィールドの適切な順序に特に注意を払うデータベースクエリーステートメントを指定します。

  • [Built-in] (組み込み): [Query] (クエリー)フィールドのクエリーステートメントを手動で入力するか、[Query] (クエリー)フィールドの横にある[...]ボタンをクリックして、SQLBuilderを使用してステートメントをグラフィカルに構築します。

  • [Repository] (リポジトリー): リポジトリーに保存されている関連するクエリーを選択します。これを行うにはその横にある[...]ボタンをクリックします。表示された[Repository Content] (リポジトリーコンテンツ)ダイアログボックスで使用するクエリーを選択すると、[Query] (クエリー)フィールドが自動的に入力されます。

ダイナミックスキーマ機能を使用する場合、SELECTクエリーには、選択したテーブルからすべてのカラムを取得するため*ワイルドカードを含める必要があります。

[Guess Query] (クエリーの推測)

このボタンをクリックすると、定義されたテーブルとスキーマに基づいて[Query] (クエリー)フィールドにクエリーが生成されます。

スキーマの推測

このボタンをクリックすると、[Query] (クエリー)フィールドで定義されたクエリーに基づいてスキーマカラムが生成されます。

[Specify a data source alias] (データソースエイリアスを指定)

このチェックボックスをオンにして、[Data source alias] (データソースエイリアス)フィールドが表示されたら、データソース設定で定義した共有接続プールを使用するために、 Talend Runtime側で作成したデータソースのエイリアスを指定します。このオプションは、 Talend Runtime内にジョブをデプロイして実行する時にのみ機能します。

[Connection Component] (接続コンポーネント)ドロップダウンリストから他の接続コンポーネントを選択した場合、このプロパティは使用できません。

詳細設定

[Use cursor] (カーソルの使用)

このチェックボックスをオンにすると、いつでも作業する行数を指定できます。このオプションにより、パフォーマンスを最適化できます。

Trim all the String/Char columns (すべての文字列/文字カラムをトリミング)

このチェックボックスをオンにすると、先行ホワイトスペースおよび後続ホワイトスペースがすべての文字列/文字カラムから削除されます。

トリムするカラムの確認

対応するカラムのチェックボックスをオンにすると、先行ホワイトスペースおよび後続ホワイトスペースが削除されます。

このプロパティは[Trim all the String/Char columns] (すべての文字列/文字カラムをトリミング)チェックボックスが選択されている場合は使用できません。

ダイナミック用にマッピングファイルの有効化

ダイナミックタイプのカラムからデータを読み込む時に指定のメタデータマッピングファイルを使うには、このチェックボックスをオンにします。このチェックボックスは、デフォルトでオフになっています。

このチェックボックスをオンにすると、[Mapping File] (マッピングファイル)ドロップダウンリストからデータベースのタイプを選択すれば、使うメタデータマッピングファイルを指定できます。

メタデータマッピングファイルの詳細は、Talend Studioユーザーガイドでタイプ変換に関するセクションを参照してください。

[Use PreparedStatement] (PreparedStatementの使用)

プレパレーション済みのステートメントを使用してデータベースをクエリーする場合は、このチェックボックスをオンにします。表示される[Set PreparedStatement Parameters] (PreparedStatementパラメーターの設定) テーブルで、 [Query] (クエリー)フィールドで定義されたSQLステートメント内に疑問符?で表される各パラメーターの値を指定します。

  • [Parameter Index] (パラメーターインデックス): SQLステートメント内のパラメーターの位置。

  • [Parameter Type] (パラメーターの種類): パラメーターのタイプ。

  • [Parameter Value] (パラメーターの値): パラメーターの値。

このプロパティの関連するユースケースは、PreparedStatementオブジェクトを使用してデータをクエリーするを参照してください。

[Allow special character in Dynamic table name] (ダイナミックテーブル名に特殊文字を許可する)

ダイナミックカラム内に入力テーブルの実際のカラム名を使うには、このオプションを選択します。このオプションを選択すると、入力テーブルのカラム名の特殊文字(例: $)がダイナミックカラム内で_に変換されることを防止できます。

このオプションはデフォルトで選択されています。

注: このオプションは、TalendのR2020-06以降のStudio月次アップデートをインストールした場合のみ利用できます。詳細は管理者にお問い合わせください。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスをオンにすると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。

[Global Variables] (グローバル変数)

ERROR_MESSAGE

エラー発生時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。

NB_LINE

処理された行数。これはAfter変数で、整数を返します。

QUERY

処理されるクエリーステートメント。これはFlow変数で、文字列を返します。

使用方法

使用ルール

このコンポーネントでは、DeltaLake接続を使うすべてのデータベースに対し、使用可能なすべてのSQLクエリーが網羅されています。

[Dynamic settings] (ダイナミック設定)

[+]ボタンをクリックしてテーブルに行を追加し、[Code] (コード)フィールドにコンテキスト変数を入力して、ジョブ内で計画した複数の接続からデータベース接続をダイナミックに選択します。この機能は、データ構造が同じでデータベースが異なるデータベーステーブルにアクセスする必要がある場合、特に、Talend Studioを介さずにジョブをデプロイおよび実行する必要がある時など、ジョブの設定を変更できない環境で作業している場合に役立ちます。

動的パラメーターの使用サンプルは、コンテキストベースの動的接続によるデータベースからのデータの読み取りおよび動的に読み込まれた接続パラメーターを使用した異なるMySQLデータベースからのデータの読み取りを参照してください。[Dynamic settings] (動的設定)とコンテキスト変数については、『Talend Studioユーザーガイド』を参照してください。