メイン コンテンツをスキップする

シンプルVSRマッチャーアルゴリズム

シンプルVSRマッチャーアルゴリズムは、同じブロック内の各レコードをルックアップテーブル内の前のマスターレコードと比較します。

前のマスターレコードのどれにもマッチングしないレコードがある場合は、新しいマスターレコードと見なされ、ルックアップテーブルに追加されます。すなわち、データセットの最初のレコードは必然的にマスターレコードとなります。そのため、レコードの順序が重要であり、マスターレコードの作成プロセスに影響を及ぼす可能性があります。

あるレコードがマスターレコードにマッチングすると、シンプルVSRマッチャーアルゴリズムはそれ以降他のマスターレコードとのマッチングを試みません。ルックアップテーブル内のマスターレコードがどれも類似していないためです。したがって、あるレコードがマスターレコードとマッチングすると、別のマスターレコードにマッチングする可能性は低いです。

すなわち、レコードは1つのレコードグループ内にのみ存在でき、1つのマスターレコードにのみリンクされることが可能です。

たとえば、以下のレコードのセットを入力として取り込みます。

id fullName
1 John Doe
2 Donna Lewis
3 John B. Doe
4 Louis Armstrong

アルゴリズムは入力レコードを以下のように処理します。

  1. アルゴリズムはレコード1を取り、空のレコードセットと比較します。レコード1はどのレコードともマッチングしないため、ルックアップテーブルに追加されます。
  2. アルゴリズムはレコード2を取り、レコード1と比較します。マッチではないため、レコード2はルックアップテーブルに追加されます。
  3. アルゴリズムはレコード3を取り、レコード1、レコード2と比較します。レコード3はレコード1とマッチングするため、レコード3がレコード1のグループに追加されます。
  4. アルゴリズムはレコード4を取り、レコード1およびレコード2と比較しますが、マスターレコードではないレコード3とは比較しません。マッチングではないため、レコード4がルックアップテーブルに追加されます。

出力は次のようになります。

id fullName Grp_ID Grp_Size マスター スコア GRP_QUALITY
1 John Doe 0 2 true 1.0 0.72
3 John B. Doe 0 0 false 0.72 0
2 Donna Lewis 1 1 true 1.0 1.0
4 Louis Armstrong 2 1 true 1.0 1.0

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。