HDFSファイルのプロファイリング - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio
Talend StudioProfilingパースペクティブから、Hive接続経由でHDFSファイルに対してシンプル統計インジケーターを使用してカラム分析を作成することができます。

手順

HDFSファイルにプロファイリング分析を作成する手順は、以下のとおりです。

  1. Hadoopクラスターへの接続を作成します。
  2. Hiveサーバーへの接続を作成します。
    HDFSファイルへの接続を作成するときに、Hiveへの接続を同時に作成するよう画面上で指示されるため、この手順は必須ではありません。
  3. HDFSファイルへの接続を作成します。
    この手順に従ってHiveの 外部テーブルを作成することができます。その結果、データはファイル内に残りますが、Hiveメタストア内にテーブルの定義が作成されます。これにより、StudioはHive接続経由でファイル内のデータにSQLクエリを実行することができます。
  4. Hiveテーブルの単純なインジケーターでカラム分析を作成します。

次のタスク

続いて、必要に応じて分析の設定を変更し、他のインジケーターを追加することができます。後で、同じHiveテーブルを使用して、このHDFSファイルに別の分析を作成することもできます。