類似の値の検索 - 2.8

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
2.8
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

誤記などを修正するために、類似のテキストを見つけてフィルター処理する必要がある場合は、[Match Similar Text] (類似のテキストに一致)ファンクションを使用できます。

このファンクションにより、パターンが一致する場合はtrueの、一致しない場合はfalseの値をもつカラムが新たに作成されます。

手順

  1. 類似のテキストを検索するテキストカラムを選択します。
  2. ファンクションパネルで「Match Similar Text (類似のテキストに一致)」と入力し、結果をクリックして関連ファンクションのオプションを開きます。
  3. 必要に応じてオプションに値を入力します。

    [Reference] (参照)フィールドは、入力するテキストに相当し、[Fuzziness] (ファジー度)フィールドは、[Reference] (参照)で追加、削除できる文字数、または相違可能な文字数に相当します。 この数はレーベンシュタイン距離といいます。

    [Reference] (参照)フィールドでは、大文字と小文字が区別されます。この例の場合、参照テキストは「new」で、レーベンシュタイン距離(ファジー度)は1です。

    この例のファンクションは、"few"、"now"、"net"、または"news"と一致しますが、"bow"、"nap"、または"led"とは一致しません。

  4. [Submit] (送信)ボタンをクリックして、選択したオプションと関数を適用します。

タスクの結果

パターンが一致する場合は値trueの、一致しない場合はfalseの値をもつカラムが新たに作成されます。

レーベンシュタイン距離の詳細は、https://en.wikipedia.org/wiki/Levenshtein_distanceを参照してください。