tSynonymSearchの標準プロパティ - Cloud - 8.0

Synonymインデックス

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント
Last publication date
2024-02-28

これらのプロパティは、標準ジョブのフレームワークで実行されているtSynonymSearchを設定するために使われます。

標準tSynonymSearchコンポーネントは、データクオリティファミリーに属しています。

このフレームワーク内のコンポーネントは、Talend Data Management PlatformTalend Big Data PlatformTalend Real-Time Big Data PlatformTalend Data Services Platform、およびTalend Data Fabricで使用できます。

基本設定

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

このコンポーネントのスキーマに用意されているデフォルトカラムは、入力データと参照エントリーの間のマッチング詳細を表示するためのものです。

デフォルトスキーマカラムの詳細は、デフォルトスキーマカラムをご覧ください。

ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。

  • [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。

    変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

 

[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

[Limit of each group] (各グループの制限)

数値を入力して、入力データの各グループに一致する参照エントリーの最大表示を示します。入力データの各行は、このコンポーネントによって1つのグループとして認識されます。

エントリー数が指定された制限を超える場合、このコンポーネントは、最も高いスコアのエントリーを表示します。一致したエントリーで使われるスコアの詳細は、デフォルトスキーマカラムをご覧ください。

[Columns to search] (検索するカラム)

この表を完成させて、特定のインデックスの入力データと参照エントリーを照合するために使うパラメーターを提供します。

入力するカラムは次のとおりです。

- [Input column] (入力カラム): 入力データスキーマから目的のカラムを選択します。

- [Reference output column] (参照出力カラム): 出力データスキーマからカラムを選択して、指定されたシノニムインデックスで見つかった一致する参照エントリーを表示します。

- [Index path] (インデックスパス): 検索する必要があるインデックスへのパスを入力します。値は二重引用符で囲む必要があります。

- [Search mode] (検索モード): 入力文字列をインデックス文字列と照合するために使う検索モードを選択します。利用可能な検索モードの詳細は、インデックスルールの検索モードをご覧ください。

- [Score threshold] (スコアしきい値) (すべてのモードで使用可能): 結果をフィルタリングするための0.0より大きい数値を設定するために使われます。しきい値を0.0に設定してフィルターを無効にします。

スコア値はLuceneエンジンによって返され、0より大きい値にできます。スコアが高いほど、一致の類似性が高くなります。しきい値を使って、出力結果からスコアの低い一致を削除します。適切なしきい値を決定する簡単な方法はありません。入力データとインデックス付きデータによって異なります。

- [Max edits] (最大編集) (レーベンシュタインアルゴリズムに基づいており、[Match all fuzzy] (すべてのファジーを一致)モードと[Match all fuzzy] (すべてのファジーを一致)モードで利用可能): リストから編集距離1または2を選択します。入力データから編集距離内にあるすべての用語が一致します。たとえば、最大編集距離が2であれば、挿入、削除、置換を2回まで行うことができます。

[Max edits for fuzzy match] (ファジーマッチングの最大編集)により、ファジーマッチングのパフォーマンスが大幅に向上します。

注:

以前のリリースからTalend Studioに移行されたジョブは正しく実行されますが、[Max edits for fuzzy match] (ファジーマッチングの最大編集)[Minimum similarity for fuzzy match] (ファジーマッチングの最小類似度)の代わりに使われるため、結果が若干異なる場合があります。

- [Word distance] (単語距離) (Match partialモードで利用可能): インデックス内に見つかる単語のシーケンス内に許可される最大ワード数をリストから選択します。デフォルト値は1です。

- [Limit] (制限): 番号を入力して、選択した対応する入力カラムの各レコードに一致する最大参照エントリーを示します。

詳細設定

[tStatCatcher Statistics] (tStatCatcher統計)

このチェックボックスをオンにすると、ジョブレベルおよび各コンポーネントレベルでジョブ処理メタデータが収集されます。

グローバル変数

グローバル変数

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。

Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入力する場合は、Ctrl + スペースを押して変数リストにアクセスし、使用する変数を選択します。

変数の詳細は、コンテキストと変数を使用をご覧ください。

使用方法

使用ルール

このコンポーネントには、先行コンポーネントからの受信データが必要です。

[Connections] (接続)

外部リンク(このコンポーネントから別のコンポーネントへのリンク):

[Row] (行): メイン、リジェクト

[Trigger] (トリガー): 条件付き実行、コンポーネントがOKの場合、コンポーネントがエラーの場合。

受信リンク(あるコンポーネントからこのコンポーネントへのリンク):

[Row] (行): メイン、リジェクト

接続の詳細は、ジョブにおける接続の使い方をご覧ください。