データクオリティの動作原理 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

このタスクについて

StudioのProfilingパースペクティブから、さまざまなデータソースで利用できるデータを検証し、そのデータに関する統計と情報を収集できます。

Studioでのデータプロファイリングは、通常、次の順序で行われます。

手順

  1. 分析を定義して実行するテーブルとカラムにアクセスするために、データベース、区切り記号付きファイルなどのデータソースに接続する。詳細は、データソースへの接続の作成を参照して下さい。
  2. 利用可能なデータクオリティ分析を定義する。これには、データベースコンテンツの分析、カラム分析、テーブル分析、冗長性分析、コリレーション分析などがあります。これらの分析により、コンテンツ、ストラクチャー、および極めて複雑なデータストラクチャーのクオリティを定義するデータプロファイリングプロセスが実行されます。分析結果は、各分析エディターの横にグラフィックで表示されるか、[Analysis Results] (分析結果)ビューでより詳細に表示されます。
    注: データベースのデータのプロファイリングには、すべての分析タイプを使用できますが、区切り記号付きファイルのデータプロファイリングに使用できるのはカラム分析カラムセット分析のみです。
  3. 異なる分析からレポートを生成し、遠隔データベースで履歴を生成する。これらのレポートを使用して現在と履歴の統計を比較し、データクオリティの向上または劣化を判断できます。詳細は、レポートとはを参照して下さい。
  4. Studioで生成されたレポートの検討および監視を可能にする異なる分析ツールへのアクセス。ポータルの詳細は、『Talend DQ Portal User and Administrator Guide』を参照して下さい。ポータルのインストールについては、『Talend Installation and Upgrade Guide』を参照して下さい。

タスクの結果

Studioにはロックモードが搭載されています。このロックモードにより、アイテムを最初に開くユーザーは、そのアイテムをロックすることができ、「読み取り/書き込み」権限が得られます。その他のユーザーが同時に同じアイテムを開こうとすると、読み取り専用のアクセスが許可されます。詳細は、ロックの基本概念を参照して下さい。