マッチングアルゴリズムに基づいて、tMatchGroupコンポーネントを構成し、潜在的な重複をグループ化します。このコンポーネントはグループ識別子を使って、グループ化するレコードを識別します。
手順
-
tMatchGroupをダブルクリックすると、設定ウィザードが開き、マッチングルールを定義できます。
-
[Key Definition] (キー定義)テーブルで、使用するアルゴリズムとどのカラムに一致するかを定義します。同様に、[Blocking Selection] (ブロッキング選択)テーブルで、検査する必要があるペアの数を減らすために、ブロッキング値として使用するカラムを選択します。
詳細は、fem1550477929898.htmlを参照してください。
- [Chart] (チャート)ボタンをクリックして、一致する結果をウィザードに表示し、[OK]をクリックします。
-
コンポーネントプロパティで[Advanced settings] (詳細設定)をクリックし、[Sort output data by GID] (出力データをGIDでソートする)チェックボックスがオンになっていることを確認します。
注: このオプションが有効でない場合、Talend Data Stewardshipにロードした時に潜在的な重複が別のタスク内にグループ化される可能性があります。
-
tMapをダブルクリックして、エディターを開きます。
-
入力データフローを出力フローにマッピングし、[GID] (グループID)および[MASTER] (マスター)カラムをTDS_GIDおよびTDS_MASTERにそれぞれ割り当てます。
tMapの詳細は、kym1550477881717.htmlを参照してください。
-
データが1つのソースから取得される場合、この例では、右側の表[CRM]の[TDS_SOURCE]カラムのソース名を入力します。ソース名にドットが含まれていないこと、またドル記号で始まらないことを確認してください。
ソース名を指定しない場合、[Source 1] (ソース 1)、[Source 2] (ソース 2)などがデフォルトで追加されます。
-
マッチング結果を外部システムに保管する必要がある場合は、[GID]から[TDS_EXTERNAL_ID]にマッピングします。
これにより、外部システムから特定のタスクを参照できます。
-
データが異なるソースから取得され、入力スキーマにソース名を保持するカラムがある場合は、ソースカラムを[TDS_SOURCE]にマッピングします。
ソース名を指定しない場合、[Source 1] (ソース 1)、[Source 2] (ソース 2)などがデフォルトで追加されます。
同じタスクの複数のソースで同じ名前を指定した場合、-1、-2などのサフィックスがデフォルトで追加されます。たとえば、 SAPの3つのソースを使用してタスクを作成する場合、Talend Data Stewardshipのソース名はSAP、SAP - 1、SAP - 2として表示されます。
また、特定のレコードのトラストスコアをタスクソースレベルで指定し、tDataStewardshipTaskOutputの[TDS_RATING]出力カラムにマッピングして、動的に計算することもできます。これらのトラストスコアにより、キャンペーン作成時に定義されたスコアが上書きされます。
入力ファイルのソース名にドットが含まれていないこと、またドル記号で始まらないことを確認してください。
- [OK]をクリックします。