AzureとDatabricksを使ってジョブのデータフローを設計する - Cloud

AzureとDatabricksを使ってジョブのデータフローを設計する - Cloud - 8.0

Databricks

Version

Cloud

8.0

Language

日本語

Product

Talend Big Data

Talend Big Data Platform

Talend Data Fabric

Talend Real-Time Big Data Platform

Module

Talend Studio

Content

ジョブデザインと開発 > ジョブデザイン > Hadoopディストーション > Databricks

ジョブデザインと開発 > ジョブデザイン > Serverless > Databricks

Last publication date

2024-02-28

Talend StudioのIntegrationパースペクティブで、[Repository] (リポジトリー)ツリービューの[Job Designs] (ジョブデザイン)ノードから空のSpark Batchジョブを1つ作成します。
ワークスペース内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントは、tAzureFSConfiguration、tFixedFlowInput、tFileOutputParquet、tFileInputParquet、tLogRowです。
tFixedFlowInputコンポーネントは、サンプルデータをデータフローにロードするために使われます。実際には、ファイル入力コンポーネントと処理コンポーネントを使って、処理するデータを準備する高度なプロセスを設計できます。
[Row] (行) > [Main] (メイン)リンクを使って、tFixedFlowInputをtFileOutputParquetに接続します。
[Row] (行) > [Main] (メイン)リンクを使ってtFileInputParquetをtLogRowに接続します。
[Trigger] (トリガー) > OnSubjobOkリンクを使ってtFixedFlowInputをtFileInputParquetに接続します。
tAzureFSConfigurationコンポーネントは、接続しないでおきます。