Apache Spark BatchのtSynonymSearchプロパティ - Cloud - 8.0

Synonymインデックス

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化 > 類義語インデックスコンポーネント

このプロパティはSpark Batchジョブフレームワークで実行されているtSynonymSearchを設定するために使います。

Spark Batch tSynonymSearchコンポーネントは、データクオリティファミリーに属しています。

このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend Platform製品すべて、およびTalend Data Fabricで利用できます。

基本設定

[Schema] (スキーマ)[Edit schema] (スキーマを編集)

スキーマとは行の説明のことです。処理して次のコンポーネントに渡すフィールド(カラム)数を定義します。Sparkジョブを作成する場合、フィールドの命名時は予約語のlineを避けます。

このコンポーネントのスキーマに用意されているデフォルトカラムは、入力データと参照エントリーの間のマッチング詳細を表示するためのものです。

デフォルトスキーマカラムの詳細は、デフォルトスキーマカラムをご覧ください

ジョブで接続されている先行コンポーネントからスキーマを取得するには、[Sync columns] (カラムを同期)をクリックします。

スキーマを変更するには[Edit schema] (スキーマを編集)をクリックします。現在のスキーマがリポジトリータイプの場合は、3つのオプションを利用できます。

  • [View schema] (スキーマの表示): スキーマのみを表示する場合は、このオプションを選択します。

  • [Change to built-in property] (組み込みのプロパティに変更): ローカルで変更を行うためにスキーマを組み込みに変更する場合は、このオプションを選択します。

  • [Update repository connection] (リポジトリー接続を更新): リポジトリーに保存されているスキーマに変更を加え、変更後にそのコンテンツをすべてのジョブにプロパゲートするかどうかを決める場合は、このオプションを選択します。変更を現在のジョブにのみ反映する場合は、変更後、[No] (いいえ)を選択し、[Repository Content] (リポジトリーのコンテンツ)ウィンドウで再びこのスキーマのメタデータを選択します。

 

[Built-in] (組み込み): そのコンポーネントのみのスキーマを作成して、ローカルに保存します。

 

[Repository] (リポジトリー): スキーマは作成済みで、リポジトリーに保管されています。さまざまなプロジェクトやジョブデザインで再利用できます。

[Limit of each group] (各グループの制限)

数値を入力して、入力データの各グループに一致する参照エントリーの最大表示を示します。入力データの各行は、このコンポーネントによって1つのグループとして認識されます。

エントリー数が指定された制限を超える場合、このコンポーネントは最も高いスコアのエントリーを表示します。一致したエントリーで使われるスコアの詳細は、デフォルトスキーマカラムをご覧ください。

[Columns to search] (検索するカラム)

この表を完成させて、特定のインデックスの入力データと参照エントリーを照合するために使うパラメーターを提供します。

入力するカラムは次のとおりです。

- [Input column] (入力カラム): 入力データスキーマから目的のカラムを選択します。

- [Reference output column] (参照出力カラム): 出力データスキーマからカラムを選択して、指定されたシノニムインデックスで見つかった一致する参照エントリーを表示します。

- [Index path] (インデックスパス): クラスター内を検索する必要があるインデックスへのパスを入力します。値は二重引用符で囲む必要があります。

Sparkの[Local] (ローカル)モードを使う場合は、ローカルフォルダーへのパスを使います。Apache Spark 2.0以前のバージョンの場合、パスはfile:///です。HDFSフォルダーへのパスは使えません。

それ以外の場合は、インデックスがHDFSに保管されているフォルダーへのパスを使います。パスの先頭にはhdfs://を使ってください。ローカルフォルダーへのパスは使えません。

- [Search mode] (検索モード): 入力文字列をインデックス文字列と照合するために使う検索モードを選択します。利用可能な検索モードの詳細は、インデックスルールの検索モードをご覧ください。

- [Score threshold] (スコアスレッショルド) (すべてのモードで使用可能): 結果をフィルタリングするための0.0より大きい数値を設定します。スレッショルドを0.0に設定してフィルターを無効にします。

スコア値はLuceneエンジンによって返され、0より大きい値にできます。スコアが高いほど、一致の類似性が高くなります。スレッショルドを使って、出力結果からスコアの低い一致を削除します。適切なスレッショルドを決定する簡単な方法はありません。入力データとインデックス付きデータによって異なります。

- [Max edits] (最大編集) (レーベンシュタインアルゴリズムに基づいており、[Match all fuzzy] (すべてのファジーを一致)モードと[Match all fuzzy] (すべてのファジーを一致)モードで利用可能): リストから編集距離1または2を選択します。入力データから編集距離内にあるすべての用語が一致します。たとえば、最大編集距離2では、最大2つの挿入、削除、または置換を行うことができます。

[Max edits for fuzzy match] (ファジーマッチングの最大編集)により、ファジーマッチングのパフォーマンスが大幅に向上します。

注:

以前のリリースからStudioに移行されたジョブは正しく実行されますが、[Max edits for fuzzy match] (ファジーマッチングの最大編集)[Minimum similarity for fuzzy match] (ファジーマッチングの最小類似度)の代わりに使われるため、結果が若干異なる場合があります。

- [Word distance] (単語距離) (Match partialモードで利用可能): インデックス内に見つかる単語のシーケンス内に許可される最大ワード数をリストから選択します。デフォルト値は1です。

- [Limit] (制限): 番号を入力して、選択した対応する入力カラムの各レコードに一致する最大参照エントリーを示します。

[Global Variables] (グローバル変数)

[Global Variables] (グローバル変数)

ERROR_MESSAGE: エラーが発生した時にコンポーネントによって生成されるエラーメッセージ。これはAfter変数で、文字列を返します。この変数はコンポーネントにこのチェックボックスが存在し、Die on error (エラー時強制終了)がオフになっている場合のみ機能します。

Flow変数はコンポーネントの実行中に機能し、After変数はコンポーネントの実行後に機能します。

フィールドまたは式に変数を入れるには、Ctrl + Spaceを押して変数リストにアクセスし、リストから使用する変数を選択します。

変数の詳細は、 Talend Studio ユーザーガイドをご覧ください。

使用方法

使用ルール

このコンポーネントは中間ステップとして使用されます。

このコンポーネントは、所属するSpark Batchコンポーネントのパレットと共に、Spark Batchジョブを作成している場合にだけ表示されます。

特に明記していない限り、このドキュメンテーションのシナリオでは、[Standard] (標準)ジョブ、つまり従来の Talend データ統合ジョブだけを扱います。

[Connections] (接続)

外部リンク(このコンポーネントから別のコンポーネントへのリンク):

[Row] (行): メイン、リジェクト

[Trigger] (トリガー): 条件付き実行、コンポーネントがOKの場合、コンポーネントがエラーの場合。

受信リンク(あるコンポーネントからこのコンポーネントへのリンク):

[Row] (行): メイン、リジェクト

接続に関する詳細は、 Talend Studioユーザーガイドをご覧ください。

[Spark Connection] (Spark接続)

[Run] (実行)ビューの[Spark configuration] (Spark設定)タブで、ジョブ全体でのSparkクラスターへの接続を定義します。また、ジョブでは、依存jarファイルを実行することを想定しているため、Sparkがこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするファイルシステム内のディレクトリーを指定する必要があります。
  • Yarnモード(YarnクライアントまたはYarnクラスター):
    • Google Dataprocを使用している場合、[Spark configuration] (Spark設定)タブの[Google Storage staging bucket] (Google Storageステージングバケット)フィールドにバケットを指定します。

    • HDInsightを使用している場合、[Spark configuration] (Spark設定)タブの[Windows Azure Storage configuration] (Windows Azure Storage設定)エリアでジョブのデプロイメントに使用するブロブを指定します。

    • Altusを使用する場合は、[Spark configuration] (Spark設定)タブでジョブのデプロイにS3バケットまたはAzure Data Lake Storageを指定します。
    • オンプレミスのディストリビューションを使用する場合は、クラスターで使用されているファイルシステムに対応する設定コンポーネントを使用します。一般的に、このシステムはHDFSになるため、tHDFSConfigurationを使用します。

  • [Standalone mode] (スタンドアロンモード): tHDFSConfigurationtS3Configurationなど、クラスターで使われているファイルシステムに対応する設定コンポーネントを使用します。

    ジョブ内に設定コンポーネントがない状態でDatabricksを使用している場合、ビジネスデータはDBFS (Databricks Filesystem)に直接書き込まれます。

この接続は、ジョブごとに有効になります。