コンポーネントをリンク - 7.3

処理(インテグレーション)

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 変換処理コンポーネント
データガバナンス > サードパーティーシステム > 変換処理コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 変換処理コンポーネント

手順

  1. Studioの Integration パースペクティブで、[Repository] (リポジトリー)ツリービューの[Job Designs] (ジョブデザイン)ノードから空のSpark Batchジョブを1つ作成します。
    Spark Batchジョブの作成方法は、『 Talend Open Studio for Big Data入門ガイド』を参照してください。
  2. ワークスペース内に使用するコンポーネントの名前を入力し、表示されるリストからこのコンポーネントを選択します。このシナリオでは、コンポーネントはtHDFSConfiguration、2つのtFixedFlowInputコンポーネント(ラベル1はcustomer_baseに、もう1つはweb_dataに)、tSqlRowtCacheOuttCacheIntMaptExtractDelimitedFieldstAggregateRowtTop、およびtLogRowです。
    tFixedFlowInputコンポーネントは、サンプルデータをデータフローにロードするために使用されます。現実のケースではtFixedFlowInputの代わりにtMysqlInputtMapといった他のコンポーネントを使って処理するデータを準備する、より洗練されたプロセスを設計できます。
  3. [Row] (行) > [Main] (メイン)リンクを使って、customer_base (tFixedFlowInput)、tSqlRowtCacheOutを接続します。このサブジョブでは、シルバーレベルの顧客に関するレコードが選択され、キャッシュに保管されます。
  4. [Row] (行) > [Main] (メイン)リンクを使って、web_data (tFixedFlowInput)をtMapに接続します。これは、tMapコンポーネントへの主な入力フローです。
  5. 同じようにしてtCacheIntMapに接続します。これはtMapへのルックアップフローです。
  6. [Row] (行) > [Main] (メイン)リンクを使ってtMaptExtractDelimitedFieldsに接続し、表示されるダイアログボックスでこの接続に名前を付けます。たとえば、outputという名前を付けます。
  7. [Row] (行) > [Main] (メイン)リンクを使って、tExtractDelimitedFieldstAggregateRowtToptLogRowを接続します。
  8. [Trigger] (トリガー) > OnSubjobOkリンクを使って、customer_baseweb_dataに接続します。
  9. tHDFSConfigurationコンポーネントは接続しないでおきます。