セマンティックタイプとデータ型の検出

セマンティックタイプとデータ型の検出 - 7.3

Talend Data Catalogユーザーガイド

Version

7.3

Language

日本語

Product

Talend Big Data Platform

Talend Data Fabric

Talend Data Management Platform

Talend Data Services Platform

Talend MDM Platform

Talend Real-Time Big Data Platform

Module

Talend Data Catalog

Content

データガバナンス

Last publication date

2023-08-09

データを検出すると各セマンティックタイプに一致する値の数が計算されます。結果が40%を超える場合はセマンティックタイプが提案されます。データの検出ではデータ型も割り当てられます。

[Overview] (概観)タブに、[Inferred Datatypes] (推測データ型)エリアと[Inferred Semantic Types] (推測されたセマンティックタイプ)エリアの割合が表示されます。

[Semantic Types] (セマンティックタイプ)エリアには50%を超える推測セマンティックタイプが提案されます。

提案されたセマンティックタイプを割り当てたり拒否したりする場合は、チェックボックスか十字ボタンをクリックします。複数のセマンティックタイプを割り当てることができます。拒否されたセマンティックタイプは削除されます。

割合の計算方法

この割合は2つの割合の合計です。

一方はセマンティックタイプに一致する値の数を表すもので、100%まで割り当てられます。
値が意味型に一致するかどうかを判断するため、データの検出は次のセマンティックタイプに依存します。
- [Enumeration] (列挙): 値がディクショナリーの値と一致するかどうかを判断します。句読点、大文字と小文字、スペース、アクセントは無視されます。
- [Regular expression] (正規表現): 値が正規表現と一致するかどうかを判断します。
- [Compound] (複合): 値が少なくとも1つの子で検出されているかどうかを判断します。
  複合型は子と呼ばれる既存のセマンティックタイプのグループのことです。
答えが正であれば値は有効と見なされます。
もう一方の割合はカラム名とセマンティックタイプ名との類似性を表すもので、10%まで割り当てられます。
名前を比較する場合:
- レーベンアルゴリズムが使用されます。文字列を別の文字列に変換するために必要な編集(挿入、削除、置換のいずれか)の最小回数を計算します。
- 大文字と小文字の区別とアクセントは無視されます。
- 文字列にスペースが含まれている場合は語順が無視されます。たとえばUS PhoneとPhone USは同じものと見なされます。
最大の割合は100%です。値がすべてセマンティックタイプと一致し、カラム名がセマンティックタイプ名と同一であれば、結果は100%のままとなります。

クオリティバーの詳細

クオリティバーにはセマンティックタイプに応じた有効値の割合が表示されます。有効値の正確な数を表示させる場合は、クオリティバーにカーソルを合わせます。

データ型の検出

データ型が自動的に割り当てられますが、受け入れる必要はありません。

どのタイプが値であるかを判断できるよう、データの検出は次の順序に従います。

その値は空白か?
その値はブール型の値か? trueとfalseはブール型の値と見なされる唯一の値です。
その値は整数型か?
その値は10進数型か?
その値は日付型か?
上記のいずれかの型でもない値はテキスト値と見なされます。

検証は増分的に行われるため、値のタイプは1つのみです。たとえば、5という値は整数型です。テキスト型の値とは見なされません。