Big Data Platform
Data Fabric
Data Management Platform
Data Services Platform
MDM Platform
Real-Time Big Data Platform
データクオリティデータマートには、Talend Studioで実行された分析とレポートが含まれています。データは星スキーマとして保存されます。星スキーマはファクトテーブルおよびいくつかの関連付けられたディメンションテーブルで構成されています。
Talend Data Qualityの物理データモデル(PDM)を、JasperReportsレポートツールと共に使用して自分専用に指定したレポートを作成し、Talend Studioでユーザー指定のレポートを作成する時にそれらを使用できます。
このデータマートを自分のレポートツール(Tableau Softwareなど)に接続し、個人のビジネスインテリジェンス環境でデータクオリティ情報を検索することもできます。
Talend Data Qualityの物理設計には、ファクトテーブルとディメンションテーブルが含まれます。
ファクトテーブル:
-
TDQ_INDICATOR_VALUE
: インジケーター値。 -
TDQ_OVERVIEW_INDVALUE
: 概要分析。 -
TDQ_MATCH_INDVALUE
: 比較分析。 -
TDQ_SET_INDVALUE
: カラムセット分析。 -
TDQ_MATCHING_INDVALUE
: マッチング分析。 -
TDQ_GROUP_STATISTICS
: グループ統計を保存するテーブル。
ファクトテーブルには、以下の値を持つカラムが含まれる場合があります: NULL
(TALEND)、N/A
(TDQ)、EMPTY
(TDQ)。NULL
(TALEND)値は、分析されたデータがNullであることを示しています。N/A
(TDQ)値は、データクオリティコンテキストでは、カラム内の値が無意味であることを示しています。EMPTY
(TDQ)値は、分析されたデータが空であることを示しています(大半のデータベースでは、空の文字列はNull値とは異なります)。
ディメンションテーブル:
-
TDQ_ANALYSIS
: レポート内の分析インスタンス(つまり、レポートIDと分析IDのペアが機能キーを形成します)。
ディメンションテーブルには変化の遅いデータが含まれるため、ディメンションテーブル内に複数のレコードを作成し、個別のキーを指定することで、履歴データを追跡します。変更が加えられるたびに、新しいレコードが挿入されます。詳細は、http://en.wikipedia.org/wiki/Slowly_changing_dimension#Type_2をご覧ください。
ディメンションテーブルには、以下の値を持つカラムが含まれる場合があります: NULL
(TALEND)、N/A
(TDQ)、EMPTY
(TDQ)。NULL
(TALEND)値は、分析されたデータがNullであることを示しています。N/A
(TDQ)値は、データクオリティコンテキストでは、カラム内の値が無意味であることを示しています。EMPTY
(TDQ)値は、分析されたデータが空であることを示しています(大半のデータベースでは、空の文字列はNull値とは異なります)。
下の図は、Talend Data QualityのPDMの物理設計を示しています。またはテーブル間の接続も示しています。
次の3つの図には、比較分析、概要分析、カラムセット分析に関するPDMのパートが描かれています。