類似のレコードをグループ化するためのマッチングルールの作成 - 7.3

Data Stewardship

EnrichVersion
Cloud
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Data Stewardship
Talend Studio
task
ジョブデザインと開発 > サードパーティーシステム > データスチュワードシップコンポーネント
データガバナンス > サードパーティーシステム > データスチュワードシップコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データスチュワードシップコンポーネント
マッチングアルゴリズムに基づいて、tMatchGroupコンポーネントを構成し、潜在的な重複をグループ化します。このコンポーネントはグループ識別子を使って、グループ化するレコードを識別します。

手順

  1. tMatchGroupをダブルクリックすると、設定ウィザードが開き、マッチングルールを定義できます。
  2. [Key Definition] (キー定義)テーブルで、使用するアルゴリズムとどのカラムに一致するかを定義します。同様に、[Blocking Selection] (ブロッキング選択)テーブルで、検査する必要があるペアの数を減らすために、ブロッキング値として使用するカラムを選択します。
    詳細は、fem1550477929898.htmlを参照してください。
  3. [Chart] (チャート)ボタンをクリックして、一致する結果をウィザードに表示し、[OK]をクリックします。
  4. コンポーネントプロパティで[Advanced settings] (詳細設定)をクリックし、[Sort output data by GID] (出力データをGIDでソートする)チェックボックスがオンになっていることを確認します。
    注: このオプションが有効でない場合、Talend Data Stewardshipにロードした時に潜在的な重複が別のタスク内にグループ化される可能性があります。
  5. tMapをダブルクリックして、エディターを開きます。
  6. 入力データフローを出力フローにマッピングし、[GID] (グループID)および[MASTER] (マスター)カラムをTDS_GIDおよびTDS_MASTERにそれぞれ割り当てます。
    tMapの詳細は、kym1550477881717.htmlを参照してください。
  7. データが1つのソースから取得される場合、この例では、右側の表[CRM][TDS_SOURCE]カラムのソース名を入力します。ソース名にドットが含まれていないこと、またドル記号で始まらないことを確認してください。
    ソース名を指定しない場合、[Source 1] (ソース 1)[Source 2] (ソース 2)などがデフォルトで追加されます。
  8. マッチング結果を外部システムに保管する必要がある場合は、[GID]から[TDS_EXTERNAL_ID]にマッピングします。
    これにより、外部システムから特定のタスクを参照できます。
  9. データが異なるソースから取得され、入力スキーマにソース名を保持するカラムがある場合は、ソースカラムを[TDS_SOURCE]にマッピングします。

    ソース名を指定しない場合、[Source 1] (ソース 1)[Source 2] (ソース 2)などがデフォルトで追加されます。

    同じタスクの複数のソースで同じ名前を指定した場合、-1-2などのサフィックスがデフォルトで追加されます。たとえば、 SAPの3つのソースを使用してタスクを作成する場合、Talend Data Stewardshipのソース名はSAPSAP - 1SAP - 2として表示されます。

    また、特定のレコードのトラストスコアをタスクソースレベルで指定し、tDataStewardshipTaskOutput[TDS_RATING]出力カラムにマッピングして、動的に計算することもできます。これらのトラストスコアにより、キャンペーン作成時に定義されたスコアが上書きされます。

    入力ファイルのソース名にドットが含まれていないこと、またドル記号で始まらないことを確認してください。

  10. [OK]をクリックします。