Big Data
Big Data Platform
Cloud API Services Platform
Cloud Big Data
Cloud Big Data Platform
Cloud Data Fabric
Cloud Data Management Platform
Data Fabric
Data Management Platform
Data Services Platform
MDM Platform
Real-Time Big Data Platform
Talend Studioでは、データフローの並列化とは、パフォーマンスを向上させるため、サブジョブの入力データフローを並列プロセスに分割し、同時に実行することを意味します。プロセスは常に同一マシンで実行されます。
このタイプの並列化は、Talend Platformソリューションまたはビッグデータソリューションの1つにサブスクライブしている場合に限られます。
専用のコンポーネントを使用するか、またはジョブのコンテキストメニューから[Set parallelization] (並列化の設定)オプションを設定して、このタイプの並列実行を実装できます。
専用コンポーネントとは、tPartitioner、tCollector、tRecollector、およびtDepartitionerのことです。
これ以降のセクションでは、[Set parallelization] (並列化の設定)オプションの使用方法および[Row] (行)接続に関連した縦に並んだタブの[Parallelization] (並列化)の使用方法について説明しています。
並列化の有効化または無効化は1回のクリックで設定でき、Studioによりジョブ全体での実装が自動化されます。
並列化の実装には、次のような4つのキーステップが必要になります。
-
分割(
): このステップでは、Studioは入力レコードを特定数のスレッドに分割します。
-
収集(
): このステップでは、Studioは分割済みのスレッドを収集し、特定のコンポーネントに送って処理します。
-
Departitioning (
): このステップでは、分割済みスレッドの並列実行の結果をStudioでグルーピングします。
-
Recollecting (
): このステップでは、Studioで実行結果を集約したものを取得して、特定のコンポーネントに出力します。
自動実装が終わると、コンポーネント間の該当する接続をクリックして、デフォルト設定を変更できます。