類似の値の検索 - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation

誤記などを修正するために、類似のテキストを見つけてフィルター処理する必要がある場合は、[Match Similar Text] (類似のテキストに一致)関数を使用できます。

この関数により、パターンが一致する場合はtrueの、一致しない場合はfalseの値をもつカラムが新たに作成されます。

手順

  1. 類似のテキストを検索するテキストカラムを選択します。
  2. [Functions] (関数)パネルMatch Similar Textと入力し、結果をクリックして関連する関数のオプションを開きます。
  3. 必要に応じてオプションに値を入力します。

    [Reference] (参照)フィールドは、入力するテキストに相当し、[Fuzziness] (ファジー度)フィールドは、[Reference] (参照)で追加、削除できる文字数、または相違可能な文字数に相当します。この数はレーベンシュタイン距離といいます。

    [Reference] (参照)フィールドでは、大文字と小文字が区別されます。この例の場合、[Reference] (参照)テキストはnewで、レーベンシュタイン距離(ファジー度)は1になります。

    この例の関数は、"few"、"now"、"net"、または"news"と一致しますが、"bow"、"nap"、または"led"とは一致しません。

  4. [Submit] (送信)ボタンをクリックして、選択したオプションと関数を適用します。

タスクの結果

パターンが一致する場合は値trueの、一致しない場合はfalseの値をもつカラムが新たに作成されます。

レーベンシュタイン距離の詳細は、https://en.wikipedia.org/wiki/Levenshtein_distanceを参照して下さい。