セマンティックタイプを発見 - Cloud

Talend Cloud Data Preparationユーザーガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
Last publication date
2024-04-16

データを検出すると各セマンティックタイプに一致する値の数が計算されます。結果が40%を超える場合は、カラムにセマンティックタイプを割り当てます。

データセットのサンプルビューに各セマンティックタイプのパーセンテージを表示させる場合は、menuアイコンをクリックします。

Address Lineでセマンティックタイプが表示されている状態。

この機能は[Hierarchy] (階層)ビューでも利用できます。

割合の計算方法

この割合は2つの割合の合計です。
  • 一方はセマンティックタイプに一致する値の数を表すもので、100%まで割り当てられます。

    値が意味型に一致するかどうかを判断するため、データの検出は次のセマンティックタイプに依存します。

    • [Dictionary] (ディクショナリー): 値がディクショナリーの値と一致するかどうかを判断します。句読点、大文字と小文字、スペース、アクセントは無視されます。
    • [Regular expression] (正規表現): 値が正規表現と一致するかどうかを判断します。
    • [Compound] (複合): 値が少なくとも1つの子で検出されているかどうかを判断します。
      複合型は子と呼ばれる既存のセマンティックタイプのグループのことです。

    答えが正であれば値は有効と見なされます。

  • もう一方の割合はカラム名とセマンティックタイプ名との類似性を表すもので、10%まで割り当てられます。
    名前を比較する場合:
    • レーベンアルゴリズムが使用されます。ある文字列を別の文字列に変換するために必要な編集(挿入、削除、置換)の最小回数を計算します。
    • 大文字と小文字の区別とアクセントは無視されます。
    • 文字列にスペースが含まれている場合は語順が無視されます。たとえばUS PhonePhone USは同じものと見なされます。
    最大の割合は100%です。値がすべてセマンティックタイプと一致し、カラム名がセマンティックタイプ名と同一であれば、結果は100%のままとなります。