[Soundex frequency statistics] (Soundex頻度統計) - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

このグループのインジケーターはDBMSに搭載されたSoundexアルゴリズムを使用します。

これはレコードを音でインデックス付けします。これにより、同じ発音(英語の発音のみ)のレコードは同一のデータに変換されるため、スペルが多少異なっていてもマッチングさせることができます。

  • [Soundex Frequency] (Soundex頻度テーブル): 同じ発音を持つレコードの合計と比べて最も頻度の高い個別のレコードの数を計算します。

  • [Soundex Low Frequency] (Soundex低頻度テーブル): 同じ発音を持つレコードの合計と比べて頻度の低い個別のレコードの数を計算します。

注: Teradata Soundexの実装にある制限により、このインジケーターを使用してTeradataのプロファイリング結果をドリルダウンできない場合があります。詳細は、 Teradata error: "Invalid Input: only Latin letters allowed" (https://help.talend.com)でドキュメンテーションを参照して下さい。