ファイルシステムからデルタデータを読み込む - 7.3

Delta Lake

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
データガバナンス > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
データクオリティとプレパレーション > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components

ジョブがフライトの進化を簡単に計算できるように、米国のフライトに関するデータの異なるスナップショットを読み取るようにtDeltaLakeInputを設定します。

各スナップショットは、使用するDeltaLakeデータセットに書き込まれた時にバージョンを取得しました。

手順

  1. ファイルシステムへの接続情報を提供するために使用するストレージ設定コンポーネントを設定します。この例ではtS3Configurationです。
  2. flights_latest_versionという名前のtDeltaLakeInputコンポーネントをダブルクリックして、[Component] (コンポーネント)ビューを開きます。
  3. [Select a storage configuration component] (ストレージの設定コンポーネントを選択)チェックボックスをオンにして、tHDFSConfigurationで定義された接続情報を再利用します。
  4. [Edit schema] (スキーマを編集)をクリックして、スキーマエディターを開きます。このエディターで、入力データのスキーマを定義します。
  5. tS3Configurationで指定されたS3バケットで、フライトデータセットが保管されているディレクトリーを[Folder/File] (フォルダー/ファイル)フィールドに入力します。
  6. 同じようにして他のtDeltaLakeInputコンポーネントも設定しますが、[Specify time travel version] (タイムトラベルバージョンを指定する)チェックボックスをオンにして、表示される[Version] (バージョン)フィールドに0を二重引用符で囲んで入力します。つまり、このシナリオでは米国のフライトに関するデータの最初のバージョンを読み込むことを意味します。
    タイムトラベル機能を使わない場合、tDeltaLakeInputはデータの最新のスナップショットを読み込みます。タイムトラベル機能を使用すると、読み込むスナップショットを指定できます。