Big Data Platform
Cloud API Services Platform
Cloud Big Data Platform
Cloud Data Fabric
Cloud Data Management Platform
Data Fabric
Data Management Platform
Data Services Platform
MDM Platform
Real-Time Big Data Platform
このグループのインジケーターはDBMSに搭載されたSoundexアルゴリズムを使用します。
これらのインジケーターはレコードに音でインデックスを作成します。これにより、同じ英語の発音のレコードは同一の表記にエンコードされるため、スペルが多少異なっていてもマッチングさせることができます。
- Soundex頻度: 同じ発音を持つレコードの合計と比べて頻度の高い個別のレコードの数を計算します。
- Soundex低頻度: 同じ発音を持つレコードの合計と比べて頻度の低い個別のレコードの数を計算します。
Soundex頻度統計インジケーターをPostgreSQL、Amazon for PostgreSQL、Amazon Redshiftで使用するには、CREATE EXTENSION fuzzystrmatch;
クエリーを使用して拡張子をPostgreSQLデータベースにインストールします。
詳細は、https://www.postgresql.org/docs/11/fuzzystrmatch.htmlをご覧ください。
Soundex頻度統計インジケーターをAmazon Redshiftで使用するには、カスタムユーザー定義ファンクションを作成する方法もあります。
詳細は、https://docs.aws.amazon.com/redshift/latest/dg/user-defined-functions.htmlをご覧ください。
Soundex頻度統計インジケーターをSnowflakeで使用するには、Javaエンジンが必要です。
漢字がサポートされているのはSQLエンジンのみです。
Teradata Soundexの実装にある制限により、このインジケーターを使用してTeradataのプロファイリング結果をドリルダウンできない場合があります。
どのデータベースでも選択できるインジケーターを次のテーブルに示します。
データ型 | 数字 | Text | Date | その他 | ||||
---|---|---|---|---|---|---|---|---|
分析エンジンのタイプ | Java | SQL | Java | SQL | Java | SQL | Java | SQL |
Soundex頻度テーブル |
|
|
|
|
|
|
|
|
Soundex低頻度テーブル |
|
|
|
|
|
|
|
|