コンポーネントを設定 - Cloud - 8.0

Synonymインデックス

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント

手順

  1. tFixedFlowInputをダブルクリックして、[Basic settings] (基本設定)ビューを開きます。
  2. [Schema] (スキーマ)フィールドの横にある[Edit schema] (スキーマを編集)ボタンをクリックして[Schema] (スキーマ)ダイアログボックスを開き、カラムを1つ追加してFIRSTNAMEという名前を付けます。続いて、[OK]をクリックして変更を確定し、ダイアログボックスを閉じます。
  3. [Mode] (モード)エリアで、[Use Inline Content (delimited file)] (インラインコンテンツの使用: 区切りファイル)オプションを選択し、[Content] (コンテンツ)フィールドに次の名前を入力します。
    Kristof
    Chris
    Tony
    Anton
  4. tSynonymSearchをダブルクリックして[Basic settings] (基本設定)ビューを開きます。
  5. [Sync columns] (カラムの同期)をクリックして、前のコンポーネントのスキーマカラムをtSynonymSearchのデフォルトスキーマカラムに追加します。
    プロンプトが表示されたら[Yes] (はい)をクリックして、変更を次のコンポーネントにプロパゲートします。
  6. [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックして[Schema] (スキーマ)ダイアログボックスを開き、出力スキーマに1つのカラムを追加します: matched_fname
    このカラムには、出力フローで一致した参照エントリが保持されます。
    続いて、[OK]をクリックして設定を確定し、プロンプトが表示されたら変更の伝播を承諾します。
  7. [Limit of each group] (各グループの制限)フィールドに5と入力して、デフォルト値を置き換えます。
  8. [Columns to search] (検索するカラム)テーブルで[+]ボタンをクリックして1行を追加し、パラメーターを次のように定義します。
    • [Input column] (入力カラム)カラムで、入力カラムのリストからFIRSTNAMEを選択します。

    • [Reference output column] (出力カラムの参照)カラムで、出力カラムのリストからmatched_fnameを選択します。

    • [Index path] (インデックスパス)カラムに、使用するシノニムインデックスへのパスを二重引用符で囲んで入力します。

    • [Search mode] (検索モード)カラムで[Match all fuzzy] (すべてのファジーを一致)を選択します。これにより、入力文字列の各語がインデックス文字列の類似する語と一致します。

    • [Score threshold] (スコアスレッショルド)カラムに0.9と入力し、結果をフィルタリングして、類似性の高い用語のみをリスト表示します。

    • [Max edits] (最大編集)カラムで、使用が許可される編集距離に1を選択します。

      最大編集距離を1にすると、挿入、削除、または置換を1つだけ行うことができます。入力データからその編集距離内にあるすべての用語が一致します。

    • [Word distance] (単語距離)カラムは、Match partialモードの場合のみそのままにしておきます。

    • [Limit] (制限)カラムで、デフォルト値5をそのままにしておきます。

  9. tLogRowコンポーネントの[Basic settings] (基本設定)ビューで[Table] (テーブル)オプションを選択して、ジョブ実行結果の読みやすさを向上させることができます。