ブロッキング

すべての入力レコードが2つずつ比較されないようにするには、1つ以上のブロッキングキーを定義して、入力データセットをブロックと呼ばれる、より小さなデータセットに分割します。

どのブロックでも、ブロッキングキーの値は同じである必要があります。続いて、各ブロックが個別に処理されます。

ブロッキングキーを使用すると、シンプルVSRマッチャーとT-Swooshアルゴリズムがデータ処理に必要とする時間が短縮されます。たとえば、100,000レコードが1,000レコード×100ブロックに分割されると、比較の件数が100分の1に減少します。このため、アルゴリズムの実行速度は約100倍になります。

tGenKeyコンポーネントを使用してブロッキングキーを生成し、ブロック数に関する統計を視覚化することをお勧めします。ジョブ内でtGenKeyコンポーネントを右クリックし、コンテキストメニューで[View Key Profile] (キープロファイルの表示)を選択して、ブロック数のディストリビューションをそのサイズに従って視覚化します。

この例では、ブロックサイズの平均は約40です。

38行のブロックが13ある場合、13のブロックには18,772の比較があります(13 × 382)。レコードを4カラムで比較すると、これら13のブロックには75,088文字列の比較があります(18,772 × 4)。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。

こちらにフィードバックをお寄せください