ADLS Gen2 Deltaテーブルにプレパレーションを適用 - Cloud - 8.0

Azure Data Lake Store

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > クラウドストレージ > Azure > Azure Data Lake Storeコンポーネント
データガバナンス > サードパーティーシステム > クラウドストレージ > Azure > Azure Data Lake Storeコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > クラウドストレージ > Azure > Azure Data Lake Storeコンポーネント

このシナリオでは、Azure ADLS Gen2ファイルシステムからデータを取得し、準備してから表示します。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントをご覧ください。

このシナリオでは、ADLS Gen2ファイルシステムからDeltaテーブルを取得し、互換性があるプレパレーションをジョブのフローに直接適用し、結果データを読み取る方法を説明します。

tAzureAdlsGen2Inputコンポーネントによって、Azureストレージ(具体的にはお使いのDeltaテーブル)にアクセスできるようになります。tDataprepRunコンポーネントをジョブの途中で使えば、Talend Data Preparationで作成した既存のプレパレーションを再利用することで、データを読み取ったり目的のデスティネーションへ出力する前にそのデータを変換してクリーンアップすることも可能です。

以下のシナリオでは、次の操作を実行するシンプルなジョブを作成します。

  • DatabricksのDeltaテーブルから顧客データを取得します
  • 互換性があるスキーマを持つプレパレーションを直接適用します
  • 出力コンポーネントのデータを読み取ります

この例では、Deltaテーブルに基本的な顧客情報(名前、年齢、誕生日、電話番号など)が含まれています。

このシナリオでは、ジョブの入力データと同じスキーマでデータセットにプレパレーションを事前に作成済みであると想定されています。ここでは、既存のプレパレーションはpreparation_adlsgen2です。

注: 両端に同じスキーマがあると、一貫した結果が保証されますが、スキーマが異なってもジョブは引き続き実行します。

この簡単なプレパレーションでによってラストネームが大文字になり、日付の書式が変更されます。