辞書を使用した値の標準化 - 2.8

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
2.8
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

[Standardize value (fuzzy matching)] (値の標準化(あいまい一致))を使用すると、カラム内の無効な値に最も近い有効な値を見つけることができます。

このファンクションでは、現在のセマンティックタイプについてカラムに含まれる無効なデータがチェックされ、マッチングしきい値が達成されている場合に正しい数値が取得されます。このファンクションは、セマンティックタイプがデフォルトでTalend Data Preparationに存在する辞書の値に基づいている場合、またはTalend Dictionaryサービスを使用して作成された場合にのみ使用できます。カスタムセマンティックタイプを作成したり、既存のものを編集したりする方法の詳細は、ユーザーインターフェイスを使った、セマンティックタイプのライブラリーの追加を参照してください。

たとえば、米国に拠点がある顧客のさまざまな情報(氏名、電子メールアドレス、住所の州など)を含むデータセットを操作する必要があるとしましょう。

[State] (州)カラムのヘッダーで分かるように、データは米国の州として認識されていますが、クオリティバーに示されているように、一部のエントリーには無効な名前が含まれています。

1回の操作でこれらの無効な値を修正し、米国の州の完全なリストを含むUS State辞書、またはセマンティックタイプから正しい値に置き換えます。

手順

  1. [State] (州)カラムヘッダーをクリックして、内容を選択します。
  2. ファンクションパネルで、Standardize values (値の標準化)と入力し、結果をクリックして関連するファンクションのオプションを開きます。
  3. [Match threshold] (しきい値の一致)ドロップダウンリストで、間違っている値を正しい値に置換する際に一致している必要があるパーセンテージを選択します。

    以下の3種類のパーセンテージの値が利用可能です:

    • High (高): 正しい値と90%以上一致する値のみが置換されます。
    • Default (デフォルト): 正しい値と80%以上一致する値のみが置換されます。
    • None (なし): 無効な値が最も近い有効値に置換されます。

    データのマッチングではレーベンシュタインアルゴリズムが使用されます。構成された文字列の場合、マッチング処理は実際には4段階で行われます:

    • 完全な文字列と個別のトークンが検索されます。
    • 完全な文字列または1トークンに対して差異が3文字よりも少ない辞書の値が返されます。
    • 潜在的なペアについて隔たりが計算され、最良のペアが返されます。
    • ユーザーのしきい値により、隔たりに基づいて結果がフィルタリングされます。
    • Clermont Talendは、最初のトークンによりClermontと一致します。
    • Clermont-Ferraは、完全文字列と比較して異なる文字が3つより少ないため、Clermont-Ferrand と一致します。
    • Clermon-Ferantは完全な文字列と比較して異なる文字が3文字を超えていますが、トークンClermontとは1文字しか異なっていないため、Clermontと一致します。
  4. [Sumbit] (送信)ボタンの上にマウスポインターを合わせて、ファンクションの結果をプレビューし、クリックして適用します。

タスクの結果

これで間違った値が米国の州の辞書を使用して標準化されました。