AzureとDatabricksを使ってジョブのデータフローを設計する - Cloud

AzureとDatabricksを使ってジョブのデータフローを設計する - Cloud - 8.0

Azure Data Lake Store

Version

Cloud

8.0

Language

日本語

Product

Talend Big Data

Talend Big Data Platform

Talend Data Fabric

Talend Data Integration

Talend Data Management Platform

Talend Data Services Platform

Talend ESB

Talend MDM Platform

Talend Real-Time Big Data Platform

Module

Talend Studio

Content

ジョブデザインと開発 > サードパーティーシステム > クラウドストレージ > Azure > Azure Data Lake Storage Gen2コンポーネント

データガバナンス > サードパーティーシステム > クラウドストレージ > Azure > Azure Data Lake Storage Gen2コンポーネント

データクオリティとプレパレーション > サードパーティーシステム > クラウドストレージ > Azure > Azure Data Lake Storage Gen2コンポーネント

Last publication date

2024-04-15

Studioの Integration パースペクティブで、[Repository] (リポジトリー)ツリービューの[Job Designs] (ジョブデザイン)ノードから空のSpark Batchジョブを1つ作成します。
ワークスペース内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントはtAzureFSConfiguration、tFixedFlowInput、tFileOutputParquet、tFileInputParquet、tLogRowです。
tFixedFlowInputコンポーネントは、サンプルデータをデータフローにロードするために使われます。実際には、ファイル入力コンポーネントと処理コンポーネントを使って、処理するデータを準備する高度なプロセスを設計できます。
[Row] (行) > [Main] (メイン)リンクを使って、tFixedFlowInputをtFileOutputParquetに接続します。
[Row] (行) > [Main] (メイン)リンクを使ってtFileInputParquetをtLogRowに接続します。
[Trigger] (トリガー) > OnSubjobOkリンクを使ってtFixedFlowInputをtFileInputParquetに接続します。
tAzureFSConfigurationコンポーネントは接続しないでおきます。