マッチングキーの定義 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

手順

  1. ルールエディターの[Matching Key] (マッチングキー)テーブルで、[+]ボタンをクリックしてテーブルに行を追加します。
  2. 次のようにマッチングキーのパラメーターを設定します。
    • Match Key Name (マッチキー名): マッチキーの任意の名前を入力します。

    • Matching Function (マッチング機能): ドロップダウンリストから、実行するマッチングのタイプを選択します。外部のユーザー定義マッチングアルゴリズムを使用する場合は、[Custom] (カスタム)を選択します。

      この例では2つの一致キーが定義されており、ファーストネームとラストネームにそれぞれ[Levenshtein][Jaro-Winkler]という一致メソッドを使用して重複レコードを取得します。

    • [Custom Matcher] (カスタムマッチャー):このアイテムは、必ず[Custom] (カスタム)マッチング機能と一緒に使用します。ユーザー定義アルゴリズムのJarファイルを参照して選択します。

    • Confidence Weight (信頼度の重み): マッチキーとして使用する列に数値の重み(1から10)を設定します。この値を使用すると、マッチを実行するときに特定の列の重要度が高くなります。

    • Handle Null (Nullの処理): Null値を含むデータレコードの処理方法を指定します。

    一致ルールパラメーターの詳細については、『Talendコンポーネントリファレンスガイド』のtMatchGroupに関する記述を参照して下さい。
  3. [Match threshold] (しきい値の一致)フィールドに、一致可能性のしきい値を入力します。確率がこの値を超えると、2つのデータレコードはマッチとみなされます。
    [Confident match threshold] (信頼できる一致スレッショルド)フィールドで、現在の[Match threshold] (一致スレッショルド)1の間に数値を設定します。このしきい値を超えていれば、グループの品質は信頼できます。
  4. 2番目の一致ルールを定義するには、[Matching Key] (マッチングキー)テーブルの右上にカーソルを置き、[+]ボタンをクリックします。
    手順に従って一致ルールを作成します。
    一致ルールエディターで複数の条件を定義すると、分析データでOR一致オペレーションが実行されます。レコードは最初のルールを基に評価され、そこで一致したレコードは2番目のルールでは評価されません。
  5. 必要に応じて、テーブルの右上にカーソルを置き、 ボタンをクリックし、ルールのデフォルト名を好みの名前に置き換えます。
    また、ダイアログボックスで上向きおよび下向き矢印を使用してルールの順序を変更し、最初に実行するルールを決定することができます。
  6. [OK]をクリックします。
    ルールに名前が付けられ、それに基づいて[Matching Key] (マッチングキー)テーブルに並べられます。
  7. 一致ルール設定を保存します。
    一致ルールは、[DQ Repository] (DQリポジトリー)ツリービューの[Libraries] (ライブラリー) > [Rule] (ルール) > [Match] (一致)の下に保存され一元管理されます。