類似の値を検索 - 8.0

Talend Data Preparationユーザーガイド

Version
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
Last publication date
2024-03-26

誤記などを修正するために、類似のテキストを見つけてフィルター処理する必要がある場合は、[Match Similar Text] (類似のテキストに一致)ファンクションを使用できます。

このファンクションにより、パターンが一致する場合はtrueの、一致しない場合はfalseの値をもつカラムが新たに作成されます。

手順

  1. 類似のテキストを検索するテキストカラムを選択します。
  2. ファンクションパネルMatch Similar Textと入力し、結果をクリックして関連ファンクションのオプションを開きます。
  3. 必要に応じてオプションに値を入力します。

    [Reference] (参照)フィールドは、入力するテキストに相当し、[Fuzziness] (ファジー度)フィールドは、追加または削除できる文字数、あるいは[Reference] (参照)とは異なる文字数に相当します。この文字数はレーベンシュタイン距離といいます。

    [Reference] (参照)フィールドでは、大文字と小文字が区別されます。この例の場合、[Reference] (参照)テキストはnewで、レーベンシュタイン距離(ファジー度)は1になります。

    この例のファンクションは、"few"、"now"、"net"、または"news"と一致しますが、"bow"、"nap"、または"led"とは一致しません。

  4. [Submit] (送信)ボタンをクリックして、選択したオプションを使用してファンクションを適用します。

タスクの結果

パターンが一致する場合は値trueの、一致しない場合はfalseのカラムが新たに作成されます。

レーベンシュタイン距離の詳細は、https://en.wikipedia.org/wiki/Levenshtein_distanceをご覧ください。