このタスクについて
ブロッキングキーを定義することは必須ではありませんが、推奨されます。ブロッキングキーを使ってブロック内のデータをパーティショニングすると、比較が各ブロック内のレコードペアに限定されるため、検証されるレコード数が減少します。ブロッキングキーの使用は、大型のデータセットを処理する時に非常に便利です。
手順
- ルールエディターおよび[Generation of Blocking Key] (ブロッキングキーの生成)セクションで、[+]ボタンをクリックしてテーブルに行を追加します。
-
次のようにブロッキングキーのパラメーターを設定します。
-
[Blocking Key Name] (ブロッキングキーの名前): 比較する必要のあるレコードペアの数を減らすために使用するカラムの名前を入力します。
-
[Pre-algorithm] (プリアルゴリズム): ドロップダウンリストからアルゴリズムを選択し、必要な値を設定します。
プリアルゴリズムの定義は必須ではありません。このアルゴリズムは、一致アルゴリズムで処理される前にデータをクリーン化または標準化するために使用されるため、データ一致の結果が改善されます。
-
[Algorithm] (アルゴリズム): ドロップダウンリストから使用する一致アルゴリズムを選択し、必要な値を設定します。
-
[Post-algorithm] (ポストアルゴリズム): ドロップダウンリストからアルゴリズムを選択し、必要な値を設定します。
ポストアルゴリズムの定義は必須ではありません。このアルゴリズムは、一致アルゴリズムで処理された後にデータをクリーン化または標準化するために使用されるため、データ一致の結果が改善されます。
-
-
必要な場合は、同じ手順に従い必要な数だけブロッキングキーを追加します。
マッチング分析エディターに多数のブロッキングキーを使ったルールをインポートすると、1つのブロッキングキーのみが生成され、[Data] (データ)テーブルのBLOCK_KEYカラムにリスト表示されます。ブロッキングキーのパラメーターの詳細は、TalendコンポーネントリファレンスガイドのtGenKeyに関する記述をご覧ください。