Kuduジョブのデータフローを設計する - Cloud - 8.0

Kudu

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > DBコンポーネント > Kudu
データガバナンス > サードパーティーシステム > DBコンポーネント > Kudu
データクオリティとプレパレーション > サードパーティーシステム > DBコンポーネント > Kudu

手順

  1. Studioの Integration パースペクティブで、[Repository] (リポジトリー)ツリービューの[Job Designs] (ジョブデザイン)ノードから空のSpark Batchジョブを1つ作成します。
    Spark Batchジョブの作成方法の詳細は、Talend Open Studio for Big Data入門ガイドをご覧ください。
  2. ワークスペース内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントはtHDFSConfigurationtKuduConfigurationtFixedFlowInputtKuduOutputtKuduInput、およびtLogRowになります。
    tFixedFlowInputコンポーネントは、サンプルデータをデータフローにロードするために使われます。現実のケースではtFixedFlowInputの代わりにtFileInputDelimitedtMapといった他のコンポーネントを使用して転送するデータを準備する、より洗練されたプロセスを設計できます。
  3. [Row] (行) > [Main] (メイン)リンクを使って、tFixedFlowInputtKuduOutputに接続します。
  4. [Row] (行) > [Main] (メイン)リンクを使ってtMongoDBInputtLogRowに接続します。
  5. [Trigger] (トリガー) > OnSubjobOkリンクを使ってtFixedFlowInputtMongoDBInputに接続します。
  6. tHDFSConfigurationtKuduConfigurationは接続しないでおきます。