ブロッキングキーを一致分析から定義

このタスクについて

ブロッキングキーを定義することは必須ではありませんが、推奨されます。ブロッキングキーを使ってブロック内のデータをパーティショニングすると、比較が各ブロック内のレコードペアに限定されるため、検証されるレコード数が減少します。ブロッキングキーの使用は、大型のデータセットを処理する時に非常に便利です。

手順

ルールエディターおよび[Generation of Blocking Key] (ブロッキングキーの生成)セクションで、[+]ボタンをクリックしてテーブルに行を追加します。
次のようにブロッキングキーのパラメーターを設定します。
- [Blocking Key Name] (ブロッキングキーの名前): 比較する必要のあるレコードペアの数を減らすために使用するカラムの名前を入力します。
- [Pre-algorithm] (プリアルゴリズム): ドロップダウンリストからアルゴリズムを選択し、必要な値を設定します。
  
  プリアルゴリズムの定義は必須ではありません。このアルゴリズムは、一致アルゴリズムで処理される前にデータをクリーン化または標準化するために使用されるため、データ一致の結果が改善されます。
- [Algorithm] (アルゴリズム): ドロップダウンリストから使用する一致アルゴリズムを選択し、必要な値を設定します。
- [Post-algorithm] (ポストアルゴリズム): ドロップダウンリストからアルゴリズムを選択し、必要な値を設定します。
  
  ポストアルゴリズムの定義は必須ではありません。このアルゴリズムは、一致アルゴリズムで処理された後にデータをクリーン化または標準化するために使用されるため、データ一致の結果が改善されます。
必要な場合は、同じステップに従い必要な数だけブロッキングキーを追加します。
一致分析エディターに多数のブロッキングキーを使ったルールをインポートすると、1つのブロッキングキーのみが生成され、[Data] (データ)テーブルのBLOCK_KEYカラムにリスト表示されます。

ブロッキングキーのパラメーターの詳細は、tGenKeyのドキュメンテーションをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。

こちらにフィードバックをお寄せください