コンポーネントをリンクして、DeltaLakeデータのフローを設計する - 7.3

Delta Lake

EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
ジョブデザインと開発 > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
データガバナンス > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
データクオリティとプレパレーション > サードパーティーシステム > テクニカルコンポーネント > Delta Lake components
DeltaLakeデータの読み取りと処理に使用するコンポーネントをドロップしてリンクします。

手順

  1. Studioの [Integration] (統合) パースペクティブで、[Repository] (リポジトリー)ツリービューの[Job Designs] (ジョブデザイン)ノードから空のSpark Batchジョブを1つ作成します。
  2. ワークスペース内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントはtS3Configuration (名前はs3_flights)、2つのtDeltaLakeInputコンポーネント(名前はそれぞれflights_latest_version、およびflights_first_version)、2つのtAggregateRowコンポーネント(名前はcount_per_flights)、2つのtPartitionコンポーネント(名前はrepart)、1つのtMapコンポーネントおよび1つのtFileOutputDelimitedコンポーネントです。
  3. 上図に従い、[Row] (行) > [Main] (メイン)リンクを使用してこれらのコンポーネントを接続します。
  4. tS3Configurationコンポーネントは接続しないでおきます。