HDFSファイルのプロファイリング - 7.3

Talend Big Data Platform Studio ユーザーガイド

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Talend Studio Profiling パースペクティブから、Hive接続経由でHDFSファイルに対してシンプル統計インジケーターを使用してカラム分析を作成できます。

手順

HDFSファイルにプロファイリング分析を作成する手順は以下のとおりです。

  1. Hadoopクラスターへの接続を作成します。
  2. Hiveサーバーへの接続を作成します。
    HDFSファイルへの接続を作成する際、Hiveへの接続を同時に作成するよう画面上で指示されるため、この手順は必須ではありません。
  3. HDFSファイルへの接続を作成します。
    この手順に従ってHiveの 外部テーブルを作成できます。その結果、データはファイル内に残りますが、Hiveメタストア内にテーブルの定義が作成されます。これにより、StudioはHive接続経由でファイル内のデータにSQLクエリーを実行できます。
  4. Hiveテーブルの単純なインジケーターでカラム分析を作成します。

次のタスク

続いて、必要に応じて分析の設定を変更し、他のインジケーターを追加できます。後で、同じHiveテーブルを使用して、このHDFSファイルに別の分析を作成することもできます。