シンプルVSRマッチャーアルゴリズム
シンプルVSRマッチャーアルゴリズムは、同じブロック内の各レコードをルックアップテーブル内の前のマスターレコードと比較します。
前のマスターレコードのどれにもマッチングしないレコードがある場合は、新しいマスターレコードと見なされ、ルックアップテーブルに追加されます。すなわち、データセットの最初のレコードは必然的にマスターレコードとなります。そのため、レコードの順序が重要であり、マスターレコードの作成プロセスに影響を及ぼす可能性があります。
あるレコードがマスターレコードにマッチングすると、シンプルVSRマッチャーアルゴリズムはそれ以降他のマスターレコードとのマッチングを試みません。ルックアップテーブル内のマスターレコードがどれも類似していないためです。したがって、あるレコードがマスターレコードとマッチングすると、別のマスターレコードにマッチングする可能性は低いです。
すなわち、レコードは1つのレコードグループ内にのみ存在でき、1つのマスターレコードにのみリンクされることが可能です。
たとえば、以下のレコードのセットを入力として取り込みます。
id | fullName |
---|---|
1 | John Doe |
2 | Donna Lewis |
3 | John B. Doe |
4 | Louis Armstrong |
アルゴリズムは入力レコードを以下のように処理します。
- アルゴリズムはレコード1を取り、空のレコードセットと比較します。レコード1はどのレコードともマッチングしないため、ルックアップテーブルに追加されます。
- アルゴリズムはレコード2を取り、レコード1と比較します。マッチではないため、レコード2はルックアップテーブルに追加されます。
- アルゴリズムはレコード3を取り、レコード1、レコード2と比較します。レコード3はレコード1とマッチングするため、レコード3がレコード1のグループに追加されます。
- アルゴリズムはレコード4を取り、レコード1およびレコード2と比較しますが、マスターレコードではないレコード3とは比較しません。マッチングではないため、レコード4がルックアップテーブルに追加されます。
出力は次のようになります。
id | fullName | Grp_ID | Grp_Size | マスター | スコア | GRP_QUALITY |
---|---|---|---|---|---|---|
1 | John Doe | 0 | 2 | true | 1.0 | 0.72 |
3 | John B. Doe | 0 | 0 | false | 0.72 | 0 |
2 | Donna Lewis | 1 | 1 | true | 1.0 | 1.0 |
4 | Louis Armstrong | 2 | 1 | true | 1.0 | 1.0 |
このページは役に立ちましたか?
このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。