データプロファイリングの詳細 - Cloud

Talend Cloud Data Catalogユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データガバナンス
EnrichPlatform
Talend Data Catalog
Talend Cloud Data Catalogでは、テーブル/ビューやカラムオブジェクトについて、次のデータプロファイル情報を保存および表示できます:
タイプ 説明
推測データタイプ [タイプ, 行] データ型の一致数とその頻度(%)のリストで、最高値から最小値の順に分類されています。

カラムのデータ型はプロファイラーによって検出されます。カラムにさまざまなデータ型のデータが存在する場合、プロファイラーは最も使用されているデータ型を選びます。値は手動で上書きできます。この値はデータベースで宣言されているデータ型と矛盾することもあります。たとえばVARCHARデータベースのカラムに日付値しか含まれていなければ、プロファイラーはDateデータ型を設定します。

サポートされている型は、TextDateTimeDateTimeGeographicalNo PercentilesMeansMedianVarianceStd. DeviationNumberです。
日付 [値, 行] 値とその頻度(%)のディストリビューション。
パターン [パターン, 行] ソースとその頻度(%)で検出されたデータプレゼンテーションのさまざまなパターンのリスト。
推測セマンティックタイプ 推測セマンティックタイプのリスト。
データプロファイリング統計
  • プロファイリング日: プロファイリングの実行日。
  • カウント: 実際にプロファイリングされた行数で、ソース内の合計数か、収集オプションの定義時に設定された制限数のいずれかです。
  • 個別: 非個別 = 合計 - 個別 - 空白。たとえば行数が100万行で、カラムに含まれている個別値がそれよりはるかに少ない(10個など)場合、そのデータは個別のものと見なされます。
  • 重複: データベースやファイル内の重複行。
  • 有効: データベースやファイル内の有効行。
  • : データベース内のNull行、またはファイル内の空白行。
  • 無効: データベースやファイル内の無効行。
  • 平均長: 値の平均的な長さ。
  • 最小長: 値の最小の長さ。
  • 最大長: 値の最大の長さ。