ブロッキングキーをマッチング分析から定義する - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio

このタスクについて

ブロッキングキーを定義することは必須ではありませんが、推奨されます。ブロッキングキーを使ってブロック内のデータをパーティショニングすると、比較が各ブロック内のレコードペアに限定されるため、検証されるレコード数が減少します。ブロッキングキーの使用は、大型のデータセットを処理する時に非常に便利です。

手順

  1. ルールエディターおよび[Generation of Blocking Key] (ブロッキングキーの生成)セクションで、[+]ボタンをクリックしてテーブルに行を追加します。
  2. 次のようにブロッキングキーのパラメーターを設定します。
    • [Blocking Key Name] (ブロッキングキーの名前): 比較する必要のあるレコードペアの数を減らすために使用するカラムの名前を入力します。

    • [Pre-algorithm] (プリアルゴリズム): ドロップダウンリストからアルゴリズムを選択し、必要な値を設定します。

      プリアルゴリズムの定義は必須ではありません。このアルゴリズムは、一致アルゴリズムで処理される前にデータをクリーン化または標準化するために使用されるため、データ一致の結果が改善されます。

    • [Algorithm] (アルゴリズム): ドロップダウンリストから使用する一致アルゴリズムを選択し、必要な値を設定します。

    • [Post-algorithm] (ポストアルゴリズム): ドロップダウンリストからアルゴリズムを選択し、必要な値を設定します。

      ポストアルゴリズムの定義は必須ではありません。このアルゴリズムは、一致アルゴリズムで処理された後にデータをクリーン化または標準化するために使用されるため、データ一致の結果が改善されます。

  3. 必要な場合は、同じ手順に従い必要な数だけブロッキングキーを追加します。
    マッチング分析エディターに多数のブロッキングキーを使ったルールをインポートすると、1つのブロッキングキーのみが生成され、[Data] (データ)テーブルのBLOCK_KEYカラムに一覧表示されます。
    ブロッキングキーのパラメーターの詳細については、『 』の「tGenKey」ドキュメンテーションを参照して下さい。 Talend Components Reference Guide.