データフローの並列化を有効にする - Cloud - 8.0

Talend Studioユーザーガイド

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
対象製品...

Big Data

Big Data Platform

Cloud API Services Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Talend Studioでは、データフローの並列化とは、パフォーマンスを向上させるため、サブジョブの入力データフローを並列プロセスに分割し、同時に実行することを意味します。プロセスは常に同一マシンで実行されます。

このタイプの並列化は、Talend Platformソリューションまたはビッグデータソリューションの1つにサブスクライブしている場合に限られます。

専用のコンポーネントを使用するか、またはジョブのコンテキストメニューから[Set parallelization] (並列化の設定)オプションを設定して、このタイプの並列実行を実装できます。

専用コンポーネントとは、tPartitionertCollectortRecollector、およびtDepartitionerのことです。

これ以降のセクションでは、[Set parallelization] (並列化の設定)オプションの使用方法および[Row] (行)接続に関連した縦に並んだタブの[Parallelization] (並列化)の使用方法について説明しています。

並列化の有効化または無効化は1回のクリックで設定でき、Studioによりジョブ全体での実装が自動化されます。

並列化の実装には、次のような4つのキーステップが必要になります。

  1. 分割(): このステップでは、Studioは入力レコードを特定数のスレッドに分割します。

  2. 収集(): このステップでは、Studioは分割済みのスレッドを収集し、特定のコンポーネントに送って処理します。

  3. Departitioning (): このステップでは、分割済みスレッドの並列実行の結果をStudioでグルーピングします。

  4. Recollecting (): このステップでは、Studioで実行結果を集約したものを取得して、特定のコンポーネントに出力します。

自動実装が終わると、コンポーネント間の該当する接続をクリックして、デフォルト設定を変更できます。