[Soundex frequency statistics] (Soundex頻度統計) - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio

このグループのインジケーターはDBMSに搭載されたSoundexアルゴリズムを使用します。

これらのインジケーターはレコードを音でインデックス付けします。これにより、同じ英語の発音のレコードは同一の表記にエンコードされるため、スペルが多少異なっていてもマッチングさせることができます。

  • [Soundex Frequency] (Soundex頻度テーブル): 同じ発音を持つレコードの合計と比べて最も頻度の高い個別のレコードの数を計算します。
  • [Soundex Low Frequency] (Soundex低頻度テーブル): 同じ発音を持つレコードの合計と比べて頻度の低い個別のレコードの数を計算します。

Soundex頻度統計インジケーターをPostgreSQL、Amazon for PostgreSQL、Amazon Redshiftで使用するには、CREATE EXTENSION fuzzystrmatch;クエリを使用して拡張子をPostgreSQLデータベースにインストールします。

詳細は、https://www.postgresql.org/docs/11/fuzzystrmatch.htmlを参照して下さい。

Soundex頻度統計インジケーターをAmazon Redshiftで使用するには、カスタムユーザー定義ファンクションを作成する方法もあります。

詳細は、https://docs.aws.amazon.com/redshift/latest/dg/user-defined-functions.htmlを参照して下さい。

Soundex頻度統計インジケーターをSnowflakeで使用するには、Javaエンジンが必要です。

Teradata Soundexの実装にある制限により、このインジケーターを使用してTeradataのプロファイリング結果をドリルダウンできない場合があります。詳細は、Teradata error: "Invalid Input: only Latin letters allowed"を参照して下さい。