カラム内の値を自動的に標準化 - 8.0

Talend Data Preparationユーザーガイド

Version
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
Last publication date
2024-03-26

[Standardize value (fuzzy matching)] (値を標準化(ファジーマッチング))を使用すると、カラム内の無効な値に最も近い有効な値を見つけることができます。

この機能では、現在のセマンティックタイプについてカラムに含まれる無効なデータがチェックされ、マッチングしきい値が達成されている場合に正しい数値が取得されます。このファンクションは、セマンティックタイプがデフォルトでTalend Data Preparationに存在するディクショナリーの値に基づいている場合、またはTalend Dictionary Serviceを使用して作成された場合にのみ使用できます。カスタムセマンティックタイプを作成したり、既存のものを編集したりする方法の詳細は、セマンティックタイプライブラリーをエンリッチ化をご覧ください。

たとえば、米国に拠点がある顧客のさまざまな情報(氏名、メールアドレス、住所の州など)を含むデータセットを操作する必要があるとしましょう。

Stateカラムヘッダーで分かるように、データは米国の州として認識されていますが、クオリティバーに示されているように、一部のエントリーには無効な名前が含まれています。

1回のアクションでこれらの無効な値を修正し、[US State] (米国の州)の完全なリストを含むディクショナリー、またはセマンティックタイプから正しい値に置き換えます。

注: Standardize value (fuzzy matching)ファンクションではアジア系文字がサポートされていません。

手順

  1. Stateカラムヘッダーをクリックして、内容を選択します。
  2. ファンクションパネルにStandardize valuesと入力し、結果をクリックして関連するファンクションのオプションを開きます。
  3. [Match threshold] (しきい値の一致)ドロップダウンリストで、間違っている値を正しい値に置換する際に一致している必要があるパーセンテージを選択します。

    以下の3種類のパーセンテージの値が利用可能です。

    • High (高): 正しい値と90%以上一致する値のみが置換されます。
    • Default (デフォルト): 正しい値と80%以上一致する値のみが置換されます。
    • None (なし): 無効な値が最も近い有効値に置換されます。

    データのマッチングではレーベンアルゴリズムが使用されます。構成された文字列の場合、マッチング処理は実際には4段階で行われます:

    1. 完全な文字列と個別のトークンが検索されます。
    2. 完全な文字列または1トークンに対して差異が3文字よりも少ないディクショナリーの値が返されます。
    3. 潜在的なペアについて隔たりが計算され、最良のペアが返されます。
    4. ユーザーのしきい値により、隔たりに基づいて結果がフィルタリングされます。

    • Clermont Talendは、最初のトークンによってClermontと一致します。
    • Clermont-Ferraは、完全文字列と比較して異なる文字が3つより少ないため、Clermont-Ferrandと一致します。
    • Clermon-Ferantは完全な文字列と比較して異なる文字が3文字を超えていますが、トークンClermontとは1文字しか異なっていないため、Clermontと一致します。
  4. [Sumbit] (送信)ボタンの上にマウスポインターを合わせて、機能の結果をプレビューし、クリックして適用します。

タスクの結果

これで間違った値が米国の州のディクショナリーを使用して標準化されます。