ジョブがフライトの進化を簡単に計算できるように、米国のフライトに関するデータの異なるスナップショットを読み取るようにtDeltaLakeInputを設定します。
各スナップショットは、使用するDeltaLakeデータセットに書き込まれた時にバージョンを取得しました。
手順
-
ファイルシステムへの接続情報を提供するために使用するストレージ設定コンポーネントを設定します。この例ではtS3Configurationです。
-
flights_latest_versionという名前のtDeltaLakeInputコンポーネントをダブルクリックして、[Component] (コンポーネント)ビューを開きます。
-
[Select a storage configuration component] (ストレージの設定コンポーネントを選択)チェックボックスをオンにして、tHDFSConfigurationで定義された接続情報を再利用します。
-
[Edit schema] (スキーマを編集)をクリックして、スキーマエディターを開きます。このエディターで、入力データのスキーマを定義します。
-
tS3Configurationで指定されたS3バケットで、フライトデータセットが保管されているディレクトリーを[Folder/File] (フォルダー/ファイル)フィールドに入力します。
-
同じようにして他のtDeltaLakeInputコンポーネントも設定しますが、[Specify time travel version] (タイムトラベルバージョンを指定する)チェックボックスをオンにして、表示される[Version] (バージョン)フィールドに0を二重引用符で囲んで入力します。つまり、このシナリオでは米国のフライトに関するデータの最初のバージョンを読み込むことを意味します。
タイムトラベル機能を使わない場合、tDeltaLakeInputはデータの最新のスナップショットを読み込みます。タイムトラベル機能を使用すると、読み込むスナップショットを指定できます。