Hiveのプロファイリング - 7.0

ビッグデータのプロファイリング

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Data Fabric
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio

Hiveへの接続の作成の説明に従い、Hadoopディストリビューションへの接続を経由してHive接続を作成したら、Hiveテーブルすべてのデータを分析することができます。

[DQ Repository] (DQリポジトリ)ツリービューの[Metadata] ノードで、Hive接続を参照します。

  • Hive接続を右クリックし、[Overview Analysis] (概要分析)を選択します。

    この分析ではデータベースコンテンツのプロファイリングを行い、テーブルごとにテーブル数と行数の概要を示します。詳細は、データベースの分析を参照して下さい。

  • Hiveテーブルを右クリックし、メニューにリストされている分析のいずれかを選択します。

    ウィザードが表示され、選択した分析を作成する手順が段階的に説明されます。続いて、必要に応じて分析対象カラムにインジケーターを割り当てることができます。

    詳細は、最初にすべきことデータベーステーブルの分析手順、および重複値の分析を参照して下さい。