メイン コンテンツをスキップする 補完的コンテンツへスキップ

ファイルシステムからデルタデータを読み取る

ジョブがフライトの進化を簡単に計算できるように、米国のフライトに関するデータの異なるスナップショットを読み取るようにtDeltaLakeInputを設定するために使われます。

各スナップショットは、使用するDeltaLakeデータセットに書き込まれた時にバージョンを取得しました。

手順

  1. ファイルシステムへの接続情報を提供するために使用するストレージ設定コンポーネントを設定するために使われます。この例ではtS3Configurationです。
  2. flights_latest_versionという名前のtDeltaLakeInputコンポーネントをダブルクリックして、[Component] (コンポーネント)ビューを開きます。
  3. [Select a storage configuration component] (ストレージの設定コンポーネントを選択)チェックボックスをオンにして、tHDFSConfigurationで定義された接続情報を再利用します。
  4. [Edit schema] (スキーマを編集)をクリックして、スキーマエディターを開きます。このエディターで、入力データのスキーマを定義します。
  5. tS3Configurationで指定されたS3バケットで、フライトデータセットが保管されているディレクトリーを[Folder/File] (フォルダー/ファイル)フィールドに入力します。
  6. 同じようにして他のtDeltaLakeInputコンポーネントも設定しますが、[Specify time travel version] (タイムトラベルバージョンを指定する)チェックボックスをオンにして、表示される[Version] (バージョン)フィールドに0を二重引用符で囲んで入力します。つまり、このシナリオでは米国のフライトに関するデータの最初のバージョンを読み取ることを意味します。
    タイムトラベル機能を使わない場合、tDeltaLakeInputはデータの最新のスナップショットを読み取ります。タイムトラベル機能を使用すると、読み取るスナップショットを指定できます。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。