データクオリティデータマート - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

データクオリティデータマートには、Talend Studioで実行された分析とレポートが含まれています。データは星スキーマとして保存されます。星スキーマはファクトテーブルおよびいくつかの関連付けられたディメンションテーブルで構成されています。

データクオリティデータマートを使用することで、履歴報告のために分析とレポートデータにアクセスすることが容易になります。データクオリティレポートを他のチームまたはビジネスユーザーと共有するには、Talend Data Qualityポータルに接続し、そこからデータクオリティデータマートに接続するという方法があります。

Talendデータクオリティ物理データモデル(PDM)を、JasperReportsレポートツールとともに使用して自分専用に指定したレポートを作成し、user-specifiedでユーザー指定のレポートを作成するときにそれらを使用できますTalend Studio

このデータマートをTableau Softwareなどの自らのレポートツールに接続し、自分自身のビジネスインテリジェンス環境でデータクオリティ情報を検索することもできます。

Talendデータクオリティの物理設計には、ファクトテーブルとディメンションテーブルが含まれます。

ファクトテーブル:

  • TDQ_INDICATOR_VALUE: インジケーター値。

  • TDQ_OVERVIEW_INDVALUE: 概要分析。

  • TDQ_MATCH_INDVALUE: 比較分析。

  • TDQ_SET_INDVALUE: カラムセット分析。

  • TDQ_MATCHING_INDVALUE: マッチング分析。

  • TDQ_GROUP_STATISTICS: グループ統計を保存するテーブル。

ファクトテーブルには、以下の値を持つカラムが含まれる場合があります: NULL (TALEND)、N/A (TDQ)、EMPTY (TDQ)。NULL (TALEND)値は、分析されたデータがNullであることを示しています。N/A (TDQ)値は、データクオリティコンテキストでは、カラム内の値が無意味であることを示しています。EMPTY (TDQ)値は、分析されたデータが空であることを示しています(大半のデータベースでは、空の文字列はNull値とは異なります)。

ディメンションテーブル:

  • TDQ_ANALYSIS: レポート内の分析インスタンス(つまり、レポートIDと分析IDのペアが機能キーを形成します)。

ディメンションテーブルには変化の遅いデータが含まれるため、ディメンションテーブル内に複数のレコードを作成し、個別のキーを指定することで、履歴データを追跡します。変更が加えられるたびに、新しいレコードが挿入されます。詳細は、http://en.wikipedia.org/wiki/Slowly_changing_dimension#Type_2を参照してください。

ディメンションテーブルには、以下の値を持つカラムが含まれる場合があります: NULL (TALEND)、N/A (TDQ)、EMPTY (TDQ)。NULL (TALEND)値は、分析されたデータがNullであることを示しています。N/A (TDQ)値は、データクオリティコンテキストでは、カラム内の値が無意味であることを示しています。EMPTY (TDQ)値は、分析されたデータが空であることを示しています(大半のデータベースでは、空の文字列はNull値とは異なります)。

下の図は、TalendデータクオリティのPDMの物理設計を示しています。またはテーブル間の接続も示しています。

次の3つの図には、比較分析、概要分析、カラムセット分析に関するPDMのパートが描かれています。