メイン コンテンツをスキップする

シンプルVSRマッチャーとT-Swooshアルゴリズムの違い

シンプルVSRマッチャーアルゴリズムを使用して入力データを処理すると、反復の回数が入力レコードの数よりも多くなる場合があります。各反復にマージされたレコードが作成され、キューに追加される可能性があるためです。

これは、シンプルVSRマッチャーとT-Swooshアルゴリズムの主な違いの1つです。

レコードをマスターレコードと比較する時、T-Swooshアルゴリズムが1回の反復で行う比較はシンプルVSRマッチャーアルゴリズムよりも多くなります。
  • シンプルVSRマッチャーアルゴリズムを使用する場合、キューからのレコードはマスターレコードの値とだけ比較されます。キューからのレコードと、このマスターレコードをビルドするために使用される各レコードの値との間で、比較は行われません。次に、最も信頼性が高いレコードが入力データの最初に表示されるように入力レコードをソートします。
  • T-Swooshアルゴリズムを使用する場合、キューからのレコードがマスターレコードの値および、このマスターレコードをビルドするために使用された各レコードの値と比較されます。この比較は、レコードがマッチングと見なされるまで続きます。

    T-Swooshアルゴリズムを使用してマスターレコードを存続させる方法のサンプルは、T-Swooshアルゴリズムをご覧ください。

    この例では、"John Doe, John B. Doe"というレコードが、反復5の"John B. Doe"というレコードと比較されます。"John Doe, John B. Doe"、"John Doe"、"John B. Doe"という3つの文字列の少なくとも1つが文字列 "Johnnie B. Doe"とマッチングすれば、マッチングがあることになります。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。