メイン コンテンツをスキップする 補完的コンテンツへスキップ

tRecordMatchingの標準プロパティ

これらのプロパティは、標準ジョブのフレームワークで実行されているtRecordMatchingを設定するために使われます。

標準tRecordMatchingコンポーネントは、データクオリティファミリーに属しています。

このコンポーネントは、Talend Data Management PlatformTalend Big Data PlatformTalend Real-Time Big Data PlatformTalend Data Services PlatformTalend MDM PlatformおよびTalend Data Fabricで使用できます。

基本設定

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明で、処理された後に次のコンポーネントに渡されるフィールドの数を定義するものです。スキーマは[Built-in] (組み込み)か、[Repository] (リポジトリー)にリモートで保存されます。

 

[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。[Basic settings] (基本設定)タブにあるコンポーネントスキーマの詳細は、[Basic settings] (基本設定)をご覧ください。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保存されています。他のプロジェクトやジョブデザインで再利用できます。[Basic settings] (基本設定)タブにあるコンポーネントスキーマの詳細は、[Basic settings] (基本設定)をご覧ください。

[Replace output column with lookup column if matches or possible matches] (マッチング、または可能性があるマッチングの場合は、出力カラムをルックアップカラムに置き換えます)

値がマッチング、または可能性があるマッチングの場合に出力カラムをルックアップカラムに置換するには、このチェックボックスをオンにします。

このチェックボックスをオンにすると、[Columns Mapping] (カラムのマッピング)テーブルが表示されます。

[Columns Mapping] (カラムのマッピング)

置換する出力カラムと対応する代替ルックアップカラムを定義するには、このテーブルに入力します。入力するカラムは次のとおりです。

[Output Column] (出力カラム): 目的のカラムをドロップダウンリストから選択します。このリストでは、MATCHING_WEIGHTおよびMATCHING_DISTANCESという2つのカラムがデフォルトで定義されています。その他のカラムは、このコンポーネントのスキーマエディターで定義した場合にのみ使用できます。これら2つのデフォルトカラムについては、Q-gramとLevenshteinアルゴリズムを使用したエントリーのマッチングをご覧ください。

[Lookup Column] (ルックアップカラム): 目的のカラムをドロップダウンリストから選択します。このリストは、このコンポーネントに対応するルックアップカラムを提供するようにルックアップリンクが定義されている場合に使用できます。

インポートアイコンをクリックして、Studio Talendレポジトリから一致ルールを選択します。

インポートアイコンをクリックすると[Match Rule Selector] (一致ルールセレクター)ウィザードが開き、Studio Talendのリポジトリーから一致ルールをインポートして、ジョブに使用できます。

VSRアルゴリズムで作成されたルールをインポートできます。T-Swooshアルゴリズムはこのコンポーネントでは使用できません。VSRルールのインポートについては、マッチングルールをStudio Talendリポジトリーからインポートをご覧ください。

[Input Key Attribute] (入力キーの属性)

参照(ルックアップ)キーカラムを基にチェックする必要のあるメインフローからカラムを選択します。

情報メモ注: 日付カラムにアルゴリズムやマッチングアルゴリズムを適用すると、日付形式で比較する内容を決定できます。

たとえば、日付の年のみを比較する場合は、コンポーネントスキーマで日付カラムのタイプを[Date]に設定し、[Date Pattern] (日付パターン)フィールドにyyyyと入力します。コンポーネントでは、スキーマで定義されたパターンに基づき、日付形式を文字列に変換してから文字列比較が開始されます。

[Lookup Key Attribute] (ルックアップキー属性)

入力フローからのカラムを比較する参照元として使用するルックアップキーカラムを選択します。

[Matching Function] (マッチングファンクション)

関連するマッチングアルゴリズムをリストから選択します。

[Exact Match] (完全マッチング): 処理された各エントリーを、まったく同じ値を持つすべての可能な参照エントリーにマッチングさせます。

Levenshtein: 編集距離理論に基づきます。参照エントリーとマッチングするエントリーに必要な挿入、削除、置換の回数を計算します。

[Metaphone]: 発音でエントリーをインデックス設定する音声アルゴリズムに基づきます。ルックアップ参照のすべてのエントリーの発音をロードし、メインフローのすべてのエントリーを参照フローのエントリーに対してチェックします。

[Double Metaphone] (二重メタフォン): 音声アルゴリズムの新しいバージョン。元のアルゴリズムよりも正確な結果をもたらすメタフォン。文字列のプライマリーコードとセカンダリーコードの両方を返すことができます。これはあいまいなケースや共通の系統を持つ姓の複数のバリエーションに対応しています。

[Exact - ignore case] (厳密 - 大文字小文字無視): 処理された各エントリーを、値の大文字小文字を無視して、まったく同じ値を持つすべての参照可能なエントリーにマッチングします。

[Soundex]: 処理されたエントリーを標準英語の音声アルゴリズムに従ってマッチングします。

[Soundex FR]: 標準フランス語の音声アルゴリズムに従って処理されたエントリーにマッチングさせます。

[Jaro]: スペルの逸脱に従って処理されたエントリーにマッチングさせます。

q-grams: q 長さグラムの数を作成するために文字列を長さqの文字ブロックに分割して処理されたエントリーにマッチします。マッチング結果は、q-gramマッチに対して取り得るq-gramの数となります。

[Hamming]: 文字列を同じ長さの別の文字列に変換するのに必要な置換の最小数を計算します。たとえば、「masking」と「pairing」との間のハミング距離は3です。

[custom...] (カスタム...): Javaライブラリーから外部マッチングアルゴリズムをロードできます。このオプションを選択すると、[Custom Matcher] (カスタムマッチャー)カラムも有効になります。

外部Javaライブラリーをロードする方法は、tLibraryLoadをご覧ください。

[Custom Matcher] (カスタムマッチャー)

使用するカスタムクラス(外部マッチングアルゴリズム)を指すパスを入力します。このパスは、[LibraryLoad]コンポーネントを使用してインポートできるライブラリーファイル(.jarファイル)で定義されます。

詳細は、カスタムマッチングアルゴリズムの作成をご覧ください。

 

[Tokenized measure] (トークン化された測定)

トークン化とは文字列を単語に分割する概念です。選択したアルゴリズムのトークン化された測定を計算するために使用する方法を選択します。

[NO] (なし): 文字列にトークン化メソッドは使用されません。このオプションでは、「John Doe」と「Jon Doe」がマッチングします。

[Same place] (同じ場所): 2つの文字列を単語で2つのリストlist1とlist2に分割します。list1の各エレメントをlist2の同じ場所にあるエレメントに関連付けます。このメソッドを使用すると、"She is red and he is pink"と"Catherine is red and he is pink"はマッチングします。

[Same order] (同じ順序): 2つの文字列を単語で2つのリストlist1とlist2に分割し、list1がlist2よりも短いと想定します。list1のエレメントをlist2のエレメントと同じ順序で関連付けてみます。このメソッドを使用すると、「John Doe」と「John B. Doe」がマッチングします。

このメソッドは、数語の文字列でのみ使用する必要があります。そうしないと組み合わせの数が非常に大きくなります。

[Any order] (任意の順序): 2つの文字列を単語で2つのリストlist1とlist2に分割し、list1がlist2よりも短いと想定します。使用された類似性に関して最高のグローバル類似度になるようlist1の各単語のlist2の単語への割り当てを試行します。

このメソッドを使用すると、「John Doe」と「Doe John」がマッチングします。

[Weight] (加重)

キー定義の各属性(カラム)の数値加重を設定するために使われます。0以上(> = 0)の任意の値にできます。

[Handle null] (Nullの処理)

[Handle Null] (Nullの処理)

null値を処理するには、カラムから使用するnull演算子をリストから選択します。

[Null Match Null] (NullがNullにマッチング): Null属性は、他のNull属性にのみマッチングします。

[Null Match None] (Nullがなしにマッチング): Null属性は、他の属性とマッチングしません。

[Null Match All] (Nullがすべてにマッチング): Null属性は、他のすべての属性の値とマッチングします。

たとえば、nameカラムとfirstnameカラムの2つがあり、nameが決してNullにはならない場合でも最初のnameがNullになることがあります。

2つのレコードが次のような場合:

"Doe", "John"

"Doe", ""

選択した演算子によって以下の2つのレコードがマッチングする場合とマッチングしない場合があります:

[Null Match Null] (NullがNullにマッチング): マッチングしません。

[Null Match None] (Nullがなしにマッチング): マッチングしません。

[Null Match All] (Nullがすべてにマッチング): マッチングします。

以下のレコードについて:

"Doe", ""

"Doe", ""

[Null Match Null] (NullがNullにマッチング): マッチングします。

[Null Match None] (Nullがなしにマッチング): マッチングしません。

[Null Match All] (Nullがすべてにマッチング): マッチングします。

[Input Column] (入力カラム)

必要に応じて、処理されたデータをブロックに分割する入力フローのカラムを選択します。これは通常「ブロッキング」と呼ばれます。

ブロッキングにより、検査する必要があるレコードのペアの数が減ります。ブロッキングでは、入力データがパーティションに分割され、比較するペアの数を減らすと共に、徹底的なマッチを行ってマッチ率を向上させます。比較は各ブロックのレコードペアに制限されます。

非常に大きなデータを処理する場合は、ブロッキングカラムを使用すると非常に便利です。

[Matching strategy] (マッチングストラテジー)
ニーズに最適なマッチング出力を選択します。オプションは次のとおりです。
  • [All matches] (すべてマッチング): このオプションは、マッチングレコードおよびマッチングする可能性のあるレコードのすべてを出力することを意味します。

  • [Best match] (最良のマッチング): マッチングスコアが最高のレコードのみを出力します。

  • [First match] (最初のマッチング): 最初のマッチングレコードを出力します。マッチングがない場合は、マッチングする可能性のある最初のレコードを出力します。

  • [Last match] (最後のマッチング): 最後のマッチングレコードを出力します。マッチングがない場合は、マッチングする可能性のある最後のレコードを出力します。

    マッチングストラテジーを配置する際には、マッチングスコアが重要です。[Advanced settings] (詳細設定)ビューの[Possible match interval] (可能性があるマッチング間隔)フィールドで定義する必要があります。

詳細設定

[Matching Algorithm] (マッチングアルゴリズム)

リストからアルゴリズムを選択します。当面、使用できるアルゴリズムは1つだけです。

[Simple VSR] (単純VSR): このアルゴリズムは、2つのレコードがどのようにマッチングするかを指定するベクトル空間検索(VSR)メソッドに基づいています。

VSRアルゴリズムに基づくルールをインポートする方法は、マッチングルールをStudio Talendリポジトリーからインポートをご覧ください。

[Possible match interval] (可能性があるマッチング間隔)

最小値と最大値を入力します。

[minimum] (最小): 参照とマッチングするために許可される最小レコード距離を設定します(0 <= 最小)。[maximum] (最大): 参照とマッチングするために許可される最大距離を設定します(最大<=1)。

たとえば、最小値に0.5、最大値に0.9を設定すると、0.9以上のスコアはマッチングを示し、0.5よりも大きく0.9未満のスコアは可能性があるマッチング、その他のスコアはマッチングなしを示します。

[Store on disk] (ディスクに保存)

処理されたデータブロックをディスクに保存して、システムパフォーマンスを最大化する場合は、このチェックボックスをオンにします。

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスを選択すると、コンポーネントレベルでログデータを収集できます。

グローバル変数

グローバル変数

NB_MATCH_LINE: 比較アルゴリズムにマッチングする行の数。これはAfter変数で、整数を返します。

NB_POSSIBLE_MATCH_LINE: 比較アルゴリズムにマッチングする可能性がある行の数。これはAfter変数で、整数を返します。

NB_NONE_MATCH_LINE: 比較アルゴリズムにマッチングしない行の数。これはAfter変数で、整数を返します。

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。

Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入力する場合は、Ctrl + スペースを押して変数リストにアクセスし、使用する変数を選択します。

変数の詳細は、コンテキストと変数を使用をご覧ください。

使用方法

使用ルール

このコンポーネントは、開始可能でなく、2つの入力コンポーネントと1つ以上の出力コンポーネントを必要とします。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。