類似の値を検索 - Cloud

Talend Cloud Data Preparationユーザーガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
Last publication date
2023-11-20

誤記などを修正するために、類似のテキストを見つけてフィルター処理する必要がある場合は、[Match Similar Text] (類似のテキストに一致)ファンクションを使用できます。

このファンクションにより、パターンが一致する場合はtrueの、一致しない場合はfalseの値をもつカラムが新たに作成されます。

手順

  1. 類似のテキストを検索するテキストカラムを選択します。
  2. ファンクションパネルMatch Similar Textと入力し、結果をクリックして関連ファンクションのオプションを開きます。
  3. 必要に応じてオプションに値を入力します。

    [Reference] (参照)フィールドは、入力するテキストに相当し、[Fuzziness] (ファジー度)フィールドは、追加または削除できる文字数、あるいは[Reference] (参照)とは異なる文字数に相当します。この文字数はレーベンシュタイン距離といいます。

    [Reference] (参照)フィールドでは、大文字と小文字が区別されます。この例の場合、[Reference] (参照)テキストはnewで、レーベンシュタイン距離(ファジー度)は1になります。

    この例のファンクションは、"few"、"now"、"net"、または"news"と一致しますが、"bow"、"nap"、または"led"とは一致しません。

  4. [Submit] (送信)ボタンをクリックして、選択したオプションを使用してファンクションを適用します。

タスクの結果

パターンが一致する場合は値trueの、一致しない場合はfalseのカラムが新たに作成されます。

レーベンシュタイン距離の詳細は、WikipediaでLevenshtein distanceをご覧ください。