AWSでS3とDatabricksを使ってジョブのデータフローを設計 - Cloud - 8.0

Databricks

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > ジョブデザイン > Hadoopディストーション > Databricks
ジョブデザインと開発 > ジョブデザイン > Serverless > Databricks
Last publication date
2024-02-28

手順

  1. Talend StudioIntegrationパースペクティブで、[Repository] (リポジトリー)ツリービューの[Job Designs] (ジョブデザイン)ノードから空のSpark Batchジョブを1つ作成します。
  2. ワークスペース内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントは、tS3ConfigurationtFixedFlowInputtFileOutputParquettFileInputParquettLogRowです。
    tFixedFlowInputコンポーネントは、サンプルデータをデータフローにロードするために使われます。実際には、ファイル入力コンポーネントと処理コンポーネントを使って、処理するデータを準備する高度なプロセスを設計できます。
  3. [Row] (行) > [Main] (メイン)リンクを使って、tFixedFlowInputtFileOutputParquetに接続します。
  4. [Row] (行) > [Main] (メイン)リンクを使ってtFileInputParquettLogRowに接続します。
  5. [Trigger] (トリガー) > OnSubjobOkリンクを使ってtFixedFlowInputtFileInputParquetに接続します。
  6. tS3Configurationコンポーネントは、接続しないでおきます。