メイン コンテンツをスキップする 補完的コンテンツへスキップ

マッチングルールをStudio Talendリポジトリーからインポート

tMatchGroup設定ウィザードを使って、 Profiling パースペクティブで作成およびテストされたマッチングルールからマッチングキーをインポートできます。このインポートされたマッチングキーをマッチジョブで使用できます。

tMatchGroupコンポーネントを使用すると、VSRまたはT-Swooshアルゴリズムに基づいてStudio Talendのリポジトリーマッチングルールからインポートできます。

VSRアルゴリズムはレコードのセットを入力と見なし、定義されたマッチルールに基づいて、検出された類似の重複値をグルーピングします。このアルゴリズムは、レコードのペアを比較してグループに割り当てます。各グループで最初に処理されたレコードがそのグループのマスターレコードとなります。VSRアルゴリズムは各レコードを各グループのマスターレコードと比較し、計算されたマスターレコードからの距離を使ってそのグループの割り当て先を決定します。

T-Swooshアルゴリズムを使用して重複を検出するか、2つの類似のレコードをマージし、サバイバーシップファンクションを使用してマスターレコードを作成する方法を定義できます。このような新しくマージされたレコードは、新たな重複を検出するために使用されます。VSRアルゴリズムとの相違は、通常マスターレコードが入力レコードのリストに存在しない新規レコードとなる点です。

手順

  1. 設定ウィザードの右上の アイコンをクリックします。
    [Match Rule Selector] (マッチングルールセレクター)ウィザードが開き、Studio Talendで作成され、リポジトリーに保存されたすべてのマッチングルールがリストされます。
  2. tMatchGroupコンポーネントにインポートするマッチルールを選択し、データに使用します。
    インポートするマッチルールが、tMatchGroupの入力スキーマに存在しないカラムに定義されている場合、ウィザードに警告メッセージが表示されます。後で設定ウィザードで入力カラムを定義できます。
    コンポーネントの基本設定で同じ種類のマッチングアルゴリズムを選択し、設定ウィザードからインポートすることが重要です。それ以外の場合、ジョブは2つのアルゴリズム間で互換性のないパラメーターのデフォルト値で実行されます。
  3. 設定ウィザードのルールをインポートするルールに置き換える場合は、[Overwrite current Match Rule in the analysis] (分析の現在のマッチルールを上書き)チェックボックスをオンにします。
    チェックボックスをオフにしたままにすると、ウィザードの現在のマッチルールは上書きされずに、マッチルールが新しいマッチルールタブにインポートされます。
  4. [OK]をクリックします。
    マッチングキーはマッチルールからインポートされ、設定ウィザードで新しいルールとしてリストされます。
  5. [Input Key Attribute] (入力キー属性)をクリックし、マッチングキーを適用するカラムを入力データから選択します。
  6. [Match threshold] (しきい値のマッチング)フィールドに、マッチング可能性のしきい値を入力します。計算されたマッチスコアがこの値以上になると、2つのデータレコードがマッチングすることになります。
  7. [Blocking Selection] (ブロッキング選択)テーブルで、入力フローからブロッキングキーとして使用するカラムを選択します。
    ブロッキングキーを定義することは必須ではありませんが、推奨されます。ブロッキングキーを使ってブロックのデータを分割すると、比較が各ブロックのレコードペアに限定されるため、検証が必要なレコード数が減ります。ブロッキングキーの使用は、大型のデータセットを処理する時に非常に便利です。
    コンポーネントの[Blocking Selection] (ブロック選択)テーブルは Profiling パースペクティブのマッチングルールエディタの[Generation of Blocking Key] (Blocking Keyテーブルの生成)テーブルとは異なります。
    tMatchGroupのブロッキングカラムは、tGenKeyコンポーネント ([T_GEN_KEY]と呼びます)または入力スキーマ ([ZIP]カラムなど)から取得できます。マッチングルールエディタの[Generation of Blocking Key] (ブロックキーの生成)テーブルでは、ブロックキーを生成するために必要なパラメーターが定義されていますが、 この表はtGenKeyコンポーネントに相当します。[Generation of Blocking Key] (ブロッキングキーの生成)テーブルは、ブロッキングで使用されるブロッキングカラム[BLOCK_KEY]を生成します。
  8. ウィザードの右上の[Chart] (チャート)ボタンをクリックして、インポートしたマッチルールを使用してジョブを実行し、マッチングする結果をウィザードに表示します。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。