ファイルシステムからデルタデータを読み込む - 7.2

Delta Lake

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
データガバナンス > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
データクオリティとプレパレーション > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components

ジョブがフライトの進化を簡単に計算できるように、米国のフライトに関するデータの異なるスナップショットを読み取るようにtDeltaLakeInputを設定します。

各スナップショットは、使用するDeltaLakeデータセットに書き込まれた時にバージョンを取得しました。

手順

  1. ファイルシステムへの接続情報を提供するために使用するストレージ設定コンポーネントを設定します。この例ではtS3Configurationです。
  2. flights_latest_versionという名前のtDeltaLakeInputコンポーネントをダブルクリックして、[Component] (コンポーネント)ビューを開きます。
  3. [Select a storage configuration component] (ストレージの設定コンポーネントを選択)チェックボックスをオンにして、tHDFSConfigurationで定義された接続情報を再利用します。
  4. [Edit schema] (スキーマを編集)をクリックして、スキーマエディターを開きます。このエディターで、入力データのスキーマを定義します。
  5. tS3Configurationで指定されたS3バケットで、フライトデータセットが保管されているディレクトリーを[Folder/File] (フォルダー/ファイル)フィールドに入力します。
  6. 同じようにして他のtDeltaLakeInputコンポーネントも設定しますが、[Specify time travel version] (タイムトラベルバージョンを指定する)チェックボックスをオンにして、表示される[Version] (バージョン)フィールドに0を二重引用符で囲んで入力します。つまり、このシナリオでは米国のフライトに関するデータの最初のバージョンを読み込むことを意味します。
    タイムトラベル機能を使わない場合、tDeltaLakeInputはデータの最新のスナップショットを読み込みます。タイムトラベル機能を使用すると、読み込むスナップショットを指定できます。