Hiveテーブルを使用してHDFSファイルへのプロファイリング分析を作成する方法 - 7.1

Talend Real-time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Real-Time Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

始める前に

Talend StudioProfilingパースペクティブを選択していること。

HadoopディストリビューションおよびHDFSファイルへの接続が作成済みであること。

手順

  1. [DQ Repository] (DQリポジトリ)ツリービューで、使用するHDFS接続を右クリックし、[Create Simple Analysis] (単純分析の作成)を選択します。

    ダイアログボックスが開き、接続のHDFSスキーマがリスト表示されます。

  2. プロファイリングを行うファイルのチェックボックスをオンにします。
    [Creation status] (作成ステータス)カラムに[Success] (成功)と表示されるまで待ちます。
    注: 作成するHiveテーブルは、ファイルではなくフォルダーに基づくものです。したがって、構造の異なるファイルは選択しないでください。
  3. [Check Connection] (接続チェック)をクリックして接続ステータスを確認し、[Next] (次へ)をクリックしてウィザードに新しいビューを開きます。そのビューには、選択したファイルのスキーマがリスト表示されます。
  4. 必要に応じてスキーマを編集します。
    スキーマに[Date] (日付)カラムがある場合は、日付パターンを必ず正確に設定してください。設定に間違いがあるとnullが返されます。
  5. [Next] (次へ)をクリックしてウィザードに新しいビューを開きます。そのビューで、Hive接続のHDFSスキーマを示すテーブルを作成することができます。
  6. オプション: 必要に応じて、テーブルに新しい名前を入力します。テーブル名には小文字を使用してください。Hiveはテーブルを小文字で保存します。
  7. 以下のいずれかを行います:
    • [Select one existed Hive Connection] (既存のHive接続を1つ選択)リストから、テーブルを作成するHive接続を選択します。

      テーブルを作成する前に、少なくとも1つのHive接続が正しく設定されている必要があります。作成済みのHive接続が1つもない場合、[Select one existed Hive Connection] (既存のHive接続を1つ選択)オプションは無効になっています。

      ウィザードのこのビューで [Create a new Hive Connection] (新規Hive接続の作成)オプションを選択すると、Hive接続を作成できるようになります。

    • まず[Create a new Hive Connection] (新規Hive接続の作成)オプションを選択してHive接続を作成し、次にその新しい接続のテーブルを作成します。
  8. [Finish] (終了)をクリックします。

    [New Analysis] (新規分析)ウィザードが開きます。

  9. 分析メタデータを設定し、[Finish] (終了)をクリックします。

    選択したHDFSファイルの新規分析が自動的に作成され、分析エディター内に開きます。シンプル統計インジケーターがカラムに自動的に割り当てられます。

    分析は実際にHiveテーブルに適用されますが、外部テーブルメカニズムを使用してHDFSからのデータに基づいて統計を計算します。外部テーブルは、Hive外の元のファイルにデータを保持します。分析のために選択したHDFSファイルは削除され、以後は分析を実行することができません。

  10. [Refresh Data] (データの更新)をクリックしてカラムの内容を表示します。
    [Select Columns] (カラムの選択)タブを使用して、分析するカラムを変更することができます。
  11. 必要に応じて、[Select Indicators] (インジケーターの選択)をクリックし、カラムにインジケーターまたは新しいパターンを追加します。
  12. 分析を実行し、結果をエディターの[Analysis Results] (分析結果)ビューに表示します。

タスクの結果

カラム分析の詳細は、最初にすべきことを参照して下さい。