データのサンプリングとプロファイリング - Cloud

Talend Cloud Data Catalogユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データガバナンス
EnrichPlatform
Talend Data Catalog

技術的・記述的メタデータにはメタデータエレメントに関する情報が膨大に含まれているものの、ドキュメント化されていなければ価値ある情報とはいえません。メタデータは不完全である場合が多く、メタデータの内容(セマンティックデータタイプや有効値など)を判断するためにはデータ自体を調べることが最善です。

Talend Cloud Data Catalogでは、収集プロセスの一環として、ソース形式やツールから取得したメタデータに加え、ファイルやテーブルに含まれている実際のデータをプロファイル化するオプションを利用できます。収集時には、プロファイル化するレコードの数、そして後で視覚化用にサンプルとして保持するレコードの数を指定できます。

そのような情報は、ファイルやテーブルのページに移動したり、ファイルやテーブルの個々のフィールドや列に注目したりする時に利用できます。

Talend Cloud Data Catalogは、情報を保護し、許可されたユーザーにのみ情報が表示されるようにします。情報を表示するにはデータビューアーとしてのロールが必要です。コンテンツを表示できるユーザーであれば、「重複を除いた値の%」といった一般的なプロファイリング統計を誰でも利用できます。

このアプリケーションでは、テーブル/ビューやカラムオブジェクトについて次のデータプロファイル情報を保存、および表示できます。
  • カウント(標準カウント、および空白行や有効行などのカスタムカウント)
  • 値(重複を除いた値とそのカウント)
  • パターン(パターンとそのカウント)
  • データ型(推測データ型とそのカウント)