ブロッキングキーの定義 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

このタスクについて

ブロッキングキーを定義することは必須ではありませんが、定義することを強くお勧めします。ブロッキングキーを使ってブロック内のデータをパーティショニングすると、比較が各ブロック内のレコードペアに限定されるため、検証が必要なレコード数が減ります。ブロッキングカラムの使用は、大型のデータセットを処理する時に非常に便利です。

手順

  1. [Data] (データ)セクションで[Select Blocking Key] (ブロッキングキーの選択)タブをクリックし、ブロックで処理されたデータをパーティショニングするカラムの名前をクリックします。
    選択されたカラムと同じ名前を持つブロッキングキーが、[Blocking Key] (ブロッキングキー) テーブルにリスト表示されます。
    テーブルでは複数のカラムを定義できますが、生成されて[Data] (データ)テーブルのBLOCK_KEYカラムにリスト表示されるブロッキングキーは1つだけです。
    たとえば、最初の文字が同じであるレコードを処理するようcountryカラムやlnameカラムでアルゴリズムを使用すると、国やラストネームの最初の文字が同じであるデータレコードが同じブロックにグループ化されます。比較は、各ブロック内のレコードに限定されています。
    [Blocking key] (ブロッキングキー)テーブルからカラムを削除するには、そのカラムを右クリックして[Delete] (削除)を選択するか、[Data] (データ)テーブルでそのカラムの名前をクリックします。
  2. ブロッキングキー用のアルゴリズムを選択し、必要に応じて[Blocking key] (ブロッキングキー)テーブルで他のパラメーターを設定します。
    この例で使用されているブロッキングキーは1つのみです。countryカラムにある各単語の先頭の文字が取得され、BLOCK_KEYカラムにリスト表示されます。
    ブロッキングキーのパラメーターの詳細については、『Talend Components Reference Guide』の「tGenKey」ドキュメンテーションを参照して下さい。
  3. [Chart] (チャート)をクリックし、生成されたキーを計算して[Data] (データ)テーブルでサンプルレコードをグループ化し、その結果をチャートに表示します。
    このチャートで、ブロック数に関する統計を視覚化し、望んでいる結果に基づいてブロッキングパラメーターを適用させることができます。