カラム内の値を自動的に標準化 - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation

[Standardize value (fuzzy matching)] (値の標準化(あいまい一致))を使用すると、カラム内の無効な値に最も近い有効な値を見つけることができます。

この機能では、現在のセマンティックタイプについてカラムに含まれる無効なデータがチェックされ、マッチングしきい値が達成されている場合に正しい数値が取得されます。この機能は、セマンティックタイプがTalend Data Preparationにデフォルトで存在する値の辞書や複合タイプに基づいている場合、またはTalend Dictionaryサービスで作成された場合のみ使用できます。カスタムセマンティックタイプを作成したり、既存のものを編集したりする方法の詳細は、セマンティックタイプライブラリーのエンリッチ化を参照してください。

たとえば、米国に拠点がある顧客のさまざまな情報(氏名、メールアドレス、住所の州など)を含むデータセットを操作する必要があるとしましょう。

[State] (州)カラムのヘッダーで分かるように、データは米国の州として認識されていますが、クオリティバーに示されているように、一部のエントリには無効な名前が含まれています。

1回の操作でこれらの無効な値を修正し、[US State] (米国の州)の完全なリストを含む辞書、またはセマンティックタイプから正しい値に置き換えます。

注: Standardize value (fuzzy matching)機能ではアジア系文字がサポートされていません。

手順

  1. [State] (州)カラムヘッダーをクリックして、内容を選択します。
  2. 機能パネルにStandardize valuesと入力し、結果をクリックして関連する機能のオプションを開きます。
  3. [Match threshold] (しきい値の一致)ドロップダウンリストで、間違っている値を正しい値に置換する際に一致している必要があるパーセンテージを選択します。

    以下の3種類のパーセンテージの値が利用可能です。

    • High (高): 正しい値と90%以上一致する値のみが置換されます。
    • Default (デフォルト): 正しい値と80%以上一致する値のみが置換されます。
    • None (なし): 無効な値が最も近い有効値に置換されます。

    データのマッチングではレーベンアルゴリズムが使用されます。構成された文字列の場合、マッチング処理は実際には4段階で行われます:

    1. 完全な文字列と個別のトークンが検索されます。
    2. 完全な文字列または1トークンに対して差異が3文字よりも少ない辞書の値が返されます。
    3. 潜在的なペアについて隔たりが計算され、最良のペアが返されます。
    4. ユーザーのしきい値により、隔たりに基づいて結果がフィルタリングされます。

    例え

    • Clermont Talendは、最初のトークンによってClermontと一致します。
    • Clermont-Ferraは、完全文字列と比較して異なる文字が3つより少ないため、Clermont-Ferrandと一致します。
    • Clermon-Ferantは完全な文字列と比較して異なる文字が3文字を超えていますが、トークンClermontとは1文字しか異なっていないため、Clermontと一致します。
  4. [Sumbit] (送信)ボタンの上にマウスポインターを合わせて、機能の結果をプレビューし、クリックして適用します。

タスクの結果

これで間違った値が米国の州の辞書を使用して標準化されます。