コンポーネントを設定 - Cloud - 8.0

Synonymインデックス

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント

手順

  1. tFixedFlowInputをダブルクリックして、[Basic settings] (基本設定)ビューを開きます。
  2. [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックして[Schema] (スキーマ)ダイアログボックスを開き、前のシナリオで定義したFIRSTNAMEカラムの横に2番目のカラムLASTNAMEを追加します。
    次に[OK]をクリックしてこの変更を確定し、ダイアログボックスを閉じます。
  3. [Mode] (モード)エリアの[Content] (コンテンツ)フィールドにファーストネームとラストネームのデータをさらに追加して、入力データを次のようにします: Kristof;Toum Chris;Toom Tony;Walker Anton;Correia Jim;Correia Jim;Walker
  4. tSynonymSearchをダブルクリックして[Basic settings] (基本設定)ビューを開きます。
  5. [Sync columns] (カラムの同期)をクリックしてこのコンポーネントのカラムを前のカラムと同期し、プロンプトが表示されたら[Yes] (はい)をクリックして、変更を次のコンポーネントにプロパゲートします。
  6. [Edit schema] (スキーマを編集)の横にある[...]をクリックして[Schema] (スキーマ)ダイアログボックスを開き、出力スキーマにmatched_fnameおよびmatched_lnameという2つのカラムを追加します。
    これらのカラムには、出力フローで一致した参照エントリが保持されます。
    続いて、[OK]をクリックして設定を確定し、プロンプトが表示されたら変更の伝播を承諾します。
  7. [Limit of each group] (各グループの制限)フィールドに10と入力して、前のシナリオで定義したものを置き換えます。
  8. [Columns to search] (検索するカラム)テーブルで[+]ボタンをクリックして2番目の行を追加し、パラメーターを次のように定義します。
    • [Input column] (入力カラム)カラムで、ドロップダウンリストからLASTNAMEを選択します。

    • [Reference output column] (出力カラムの参照)カラムで、ドロップダウンリストからmatched_lnameを選択します。

    • [Index path] (インデックスパス)カラムに、ラストネームのエントリを保持するシノニムインデックスへのパスを二重引用符で囲んで入力します。

    • [Search mode] (検索モード)カラムで、両方の入力カラムに[Match exact] (完全一致)を選択します。これは、正確な入力ワードを正確なインデックスワードと照合します。

    • [Score threshold] (スコアスレッショルド)カラムに0.9と入力し、結果をフィルタリングして、類似性の高い用語のみをリスト表示します。

    • [Min similarity] (最小類似)カラムと[Word distance] (単語距離)カラムを、それぞれファジーモードとMatch partialモードについてのみそのままにしておきます。

    • この行の[Limit] (制限)カラムで、デフォルト値5をそのままにしておきます。