データプロファイリングの詳細 - Cloud

Talend Cloud Data Catalogユーザーガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Catalog
Content
データガバナンス
Last publication date
2023-11-13
Talend Cloud Data Catalogでは、テーブル/ビューやカラムオブジェクトについて、次のデータプロファイル情報を保存および表示できます:
タイプ 説明
推測済みデータ型 [型, 行] データ型の一致数とその頻度(%)のリストで、最高値から最小値の順に分類されています。

カラムのデータ型はプロファイラーによって検出されます。カラムにさまざまなデータ型のデータが存在する場合、プロファイラーは最も使用されているデータ型を選びます。値は手動で上書きできます。この値はデータベースで宣言されているデータ型と矛盾することもあります。たとえばVARCHARデータベースのカラムに日付値しか含まれていなければ、プロファイラーはDateデータ型を設定します。

サポートされている型は、TextDateTimeDateTimeGeographicalNo PercentilesMeansMedianVarianceStd. DeviationNumberです。
日付 [値, 行] 値とその頻度(%)のディストリビューション。
パターン [パターン, 行] ソースとその頻度(%)で検出されたデータプレゼンテーションのさまざまなパターンのリスト。
データプロファイリング統計
  • プロファイリング日: プロファイリングの実行日。
  • カウント: 実際にプロファイリングされた行数で、ソース内の合計数か、収集オプションの定義時に設定された制限数のいずれかです。
  • 個別: 非個別 = 合計 - 個別 - 空白。たとえば行数が100万行で、カラムに含まれている個別値がそれよりはるかに少ない(10個など)場合、そのデータは個別のものと見なされます。
  • 重複: データベースやファイル内の重複行。
  • 有効: データベースやファイル内の有効行。
  • : データベース内のNull行、またはファイル内の空白行。
  • 無効: データベースやファイル内の無効行。

    値が有効であるか無効であるかは、カラムで自動検出されたデータ型に応じて決定されます。たとえば、最初のカラムが[INTEGER] (整数)データ型として識別されたものの、最新のレコードの値に「a」という値が含まれている場合、その値は有効な[INTEGER] (整数)ではなくなり、無効な値として見なされます。

  • 平均長: 値の平均的な長さ。
  • 最小長: 値の最小の長さ。
  • 最大長: 値の最大の長さ。