分割ステップの設定 - 7.3

Talend Data Fabric Studio ユーザーガイド

Version
7.3
Language
日本語 (日本)
Product
Talend Data Fabric
Module
Talend Studio
Content
ジョブデザインと開発

手順

  1. 分割ステップを表すリンクをクリックして、[Component] (コンポーネント)ビューを開き、[Parallelization] (並列化)タブをクリックします。
    [Partition row]オプションは、[Type] (タイプ)エリアで自動的に選択されています。[None] (なし)オプションを選択すると、このリンクで処理するデータフローの並列化が無効になります。設定するリンクによっては、[Repartition row] (パーテーション行)オプションが[Type] (タイプ)エリアで利用可能となり、既に分割解除されているデータフローを再分割できます。
    この[Parallelization] (並列化)ビューでは、次のプロパティを定義する必要があります。
    • [Number of Child Threads] (子スレッドの数): 入力レコードを複数スレッドに分割する場合のスレッド数。この数字はN-1にすることを推奨します。ここで、Nはデータを処理するマシンのCPU数またはコア数を表します。

    • [Buffer Size] (バッファーサイズ): 生成された各スレッドでキャッシュする行数。

    • [Use a key hash for partitions] (分割用にキーハッシュを使用): これによりハッシュモードを使って入力レコードをスレッドに転送できます。

      これを選択すると、[Key Columns] (キーカラム)テーブルが表示されるため、ハッシュモードを適用するカラムをこのテーブルに設定します。ハッシュモードでは、同じ条件を満たすレコードが同じスレッドに転送されます。

      このチェックボックスをオフにすると、転送モードは総当たり方式となり、レコードはローテーションで1件ずつ処理されて各スレッドに転送され、最後のレコードが転送されるまで続きます。このモードでは、同じ条件を満たすレコードが必ずしも同じスレッドに入らないことにご注意ください。

  2. [Number of Child Threads] (子スレッドの数)フィールドに、データフローをいくつのスレッドに分割するかを表すスレッド数を入力します。この例では、ジョブを実行するのに4個のプロセッサーを使用しているため、3を入力します。
  3. 必要に応じて、メモリ容量に合わせて[Buffer Size] (バッファーサイズ)フィールドの値を変更します。この例では、デフォルトのままにしておきます。