AzureとDatabricksを使ってジョブのデータフローを設計する - Cloud - 8.0

Azure Data Lake Store

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > クラウドストレージ > Azure > Azure Data Lake Storeコンポーネント
データガバナンス > サードパーティーシステム > クラウドストレージ > Azure > Azure Data Lake Storeコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > クラウドストレージ > Azure > Azure Data Lake Storeコンポーネント

手順

  1. Studioの Integration パースペクティブで、[Repository] (リポジトリー)ツリービューの[Job Designs] (ジョブデザイン)ノードから空のSpark Batchジョブを1つ作成します。
  2. ワークスペース内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントはtAzureFSConfigurationtFixedFlowInputtFileOutputParquettFileInputParquettLogRowです。
    tFixedFlowInputコンポーネントは、サンプルデータをデータフローにロードするために使われます。実際には、ファイル入力コンポーネントと処理コンポーネントを使って、処理するデータを準備する高度なプロセスを設計できます。
  3. [Row] (行) > [Main] (メイン)リンクを使って、tFixedFlowInputtFileOutputParquetに接続します。
  4. [Row] (行) > [Main] (メイン)リンクを使ってtFileInputParquettLogRowに接続します。
  5. [Trigger] (トリガー) > OnSubjobOkリンクを使ってtFixedFlowInputtFileInputParquetに接続します。
  6. tAzureFSConfigurationコンポーネントは接続しないでおきます。