Apache Spark BatchのtSynonymSearchプロパティ - Cloud - 8.0

Synonymインデックス

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント
Last publication date
2024-02-28

これらのプロパティは、Spark Batchジョブのフレームワークで実行されているtSynonymSearchを設定するために使われます。

Spark BatchtSynonymSearchコンポーネントは、データクオリティファミリーに属しています。

このフレームワークのコンポーネントは、すべてのビッグデータ対応のTalendプラットフォーム製品およびTalend Data Fabricで使用できます。

基本設定

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

このコンポーネントのスキーマに用意されているデフォルトカラムは、入力データと参照エントリーの間のマッチング詳細を表示するためのものです。

デフォルトスキーマカラムの詳細は、デフォルトスキーマカラムをご覧ください。

ジョブで接続している先行コンポーネントからスキーマを取得するためには、[Sync columns] (カラムを同期)をクリックします。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。

  • [View schema] (スキーマを表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続をアップデート): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。

    変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

 

[Built-in] (組み込み): そのコンポーネントに対してのみスキーマを作成し、ローカルに保管します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

[Limit of each group] (各グループの制限)

数値を入力して、入力データの各グループに一致する参照エントリーの最大表示を示します。入力データの各行は、このコンポーネントによって1つのグループとして認識されます。

エントリー数が指定された制限を超える場合、このコンポーネントは、最も高いスコアのエントリーを表示します。一致したエントリーで使われるスコアの詳細は、デフォルトスキーマカラムをご覧ください。

[Columns to search] (検索するカラム)

この表を完成させて、特定のインデックスの入力データと参照エントリーを照合するために使うパラメーターを提供します。

入力するカラムは次のとおりです。

- [Input column] (入力カラム): 入力データスキーマから目的のカラムを選択します。

- [Reference output column] (参照出力カラム): 出力データスキーマからカラムを選択して、指定されたシノニムインデックスで見つかった一致する参照エントリーを表示します。

- [Index path] (インデックスパス): クラスター内を検索する必要があるインデックスへのパスを入力します。値は二重引用符で囲む必要があります。

Sparkの[Local] (ローカル)モードを使う場合は、次のようにローカルフォルダーへのパスを使用します。
  • Apache Spark 3.1以前のバージョンでは、prefix://file pathまたはfile:///file pathとなります。
  • Apache Spark 3.2以降のバージョンでは、file:///file pathとなります。

それ以外の場合は、インデックスがHDFSに保管されているフォルダーへのパスを使います。パスの先頭にはhdfs://を使ってください。ローカルフォルダーへのパスは使えません。

- [Search mode] (検索モード): 入力文字列をインデックス文字列と照合するために使う検索モードを選択します。利用可能な検索モードの詳細は、インデックスルールの検索モードをご覧ください。

- [Score threshold] (スコアしきい値) (すべてのモードで使用可能): 結果をフィルタリングするための0.0より大きい数値を設定するために使われます。しきい値を0.0に設定してフィルターを無効にします。

スコア値はLuceneエンジンによって返され、0より大きい値にできます。スコアが高いほど、一致の類似性が高くなります。しきい値を使って、出力結果からスコアの低い一致を削除します。適切なしきい値を決定する簡単な方法はありません。入力データとインデックス付きデータによって異なります。

- [Max edits] (最大編集) (レーベンシュタインアルゴリズムに基づいており、[Match all fuzzy] (すべてのファジーを一致)モードと[Match all fuzzy] (すべてのファジーを一致)モードで利用可能): リストから編集距離1または2を選択します。入力データから編集距離内にあるすべての用語が一致します。たとえば、最大編集距離が2であれば、挿入、削除、置換を2回まで行うことができます。

[Max edits for fuzzy match] (ファジーマッチングの最大編集)により、ファジーマッチングのパフォーマンスが大幅に向上します。

注:

以前のリリースからTalend Studioに移行されたジョブは正しく実行されますが、[Max edits for fuzzy match] (ファジーマッチングの最大編集)[Minimum similarity for fuzzy match] (ファジーマッチングの最小類似度)の代わりに使われるため、結果が若干異なる場合があります。

- [Word distance] (単語距離) (Match partialモードで利用可能): インデックス内に見つかる単語のシーケンス内に許可される最大ワード数をリストから選択します。デフォルト値は1です。

- [Limit] (制限): 番号を入力して、選択した対応する入力カラムの各レコードに一致する最大参照エントリーを示します。

グローバル変数

グローバル変数

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、[Die on error] (エラー発生時に強制終了)がオフになっている場合のみ機能します。

Flow変数はのコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入力する場合は、Ctrl + スペースを押して変数リストにアクセスし、使用する変数を選択します。

変数の詳細は、コンテキストと変数を使用をご覧ください。

使用方法

使用ルール

このコンポーネントは中間ステップとして使用されます。

このコンポーネントは、所属するSpark Batchのコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。

特に明記していない限り、このドキュメンテーションのシナリオでは、標準ジョブ、つまり従来の Talend Data Integrationジョブだけを扱います。

[Connections] (接続)

外部リンク(このコンポーネントから別のコンポーネントへのリンク):

[Row] (行): メイン、リジェクト

[Trigger] (トリガー): 条件付き実行、コンポーネントがOKの場合、コンポーネントがエラーの場合。

受信リンク(あるコンポーネントからこのコンポーネントへのリンク):

[Row] (行): メイン、リジェクト

接続の詳細は、ジョブにおける接続の使い方をご覧ください。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
  • Yarnモード(YarnクライアントまたはYarnクラスター):
    • Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。

    • HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。

    • Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
    • オンプレミスのディストリビューションを使用する場合は、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。

  • [Standalone mode] (スタンドアロンモード): クラスターで使われているファイルシステム(tHDFSConfiguration Apache Spark BatchtS3Configuration Apache Spark Batchなど)に対応する設定コンポーネントを使用します。

    ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。