コンポーネントをリンクして、DeltaLakeデータのフローを設計する - 7.2

Delta Lake

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
データガバナンス > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
データクオリティとプレパレーション > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
DeltaLakeデータの読み取りと処理に使用するコンポーネントをドロップしてリンクします。

手順

  1. Studioの Integration パースペクティブで、[Repository] (リポジトリー)ツリービューの[Job Designs] (ジョブデザイン)ノードから空のSpark Batchジョブを1つ作成します。
  2. ワークスペース内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントはtS3Configuration (名前はs3_flights)、2つのtDeltaLakeInputコンポーネント(名前はそれぞれflights_latest_version、およびflights_first_version)、2つのtAggregateRowコンポーネント(名前はcount_per_flights)、2つのtPartitionコンポーネント(名前はrepart)、1つのtMapコンポーネントおよび1つのtFileOutputDelimitedコンポーネントです。
  3. 上図に従い、[Row] (行) > [Main] (メイン)リンクを使用してこれらのコンポーネントを接続します。
  4. tS3Configurationコンポーネントは接続しないでおきます。