Hiveテーブルを使用してHDFSファイルへのプロファイリング分析を作成する方法 - Cloud - 7.3

Talend Studioユーザーガイド

Version
Cloud
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2024-03-20
対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

始める前に

Profilingパースペクティブを選択済みであること。

HadoopディストリビューションおよびHDFSファイルへの接続が作成済みであること。

手順

  1. [DQ Repository] (DQリポジトリー)ツリービューで、使用するHDFS接続を右クリックし、[Create Simple Analysis] (単純分析の作成)を選択します。

    ダイアログボックスが開き、接続のHDFSスキーマがリスト表示されます。

  2. プロファイリングを行うファイルのチェックボックスをオンにします。
    Creation statusカラムに[Success] (成功)と表示されるまで待ちます。
    注: 作成するHiveテーブルは、ファイルではなくフォルダーに基づくものです。したがって、ストラクチャーが異なるファイルは選択しないでください。
  3. [Check Connection] (接続チェック)をクリックして接続ステータスを確認し、[Next] (次へ)をクリックしてウィザードに新しいビューを開きます。そのビューには、選択したファイルのスキーマがリスト表示されます。
  4. 必要に応じてスキーマを編集します。
    スキーマにDateカラムがある場合は、日付パターンを必ず正確に設定してください。設定に間違いがあるとNullが返されます。
  5. [Next] (次へ)をクリックしてウィザードに新しいビューを開きます。そのビューで、Hive接続のHDFSスキーマを示すテーブルを作成できます。
  6. オプション: 必要に応じて、テーブルに新しい名前を入力します。テーブル名には小文字を使用してください。Hiveはテーブルを小文字で保存します。
  7. 以下のいずれかを行います:
    • [Select one existed Hive Connection] (既存のHive接続を1つ選択)リストから、テーブルを作成するHive接続を選択します。

      テーブルを作成する前に、少なくとも1つのHive接続が正しく設定されている必要があります。作成済みのHive接続が1つもない場合、[Select one existed Hive Connection] (既存のHive接続を1つ選択)オプションは無効になっています。

      ウィザードのこのビューで [Create a new Hive Connection] (新規Hive接続の作成)オプションを選択すると、Hive接続を作成できるようになります。

    • まず[Create a new Hive Connection] (新規Hive接続の作成)オプションを選択してHive接続を作成し、次にその新しい接続のテーブルを作成します。
  8. [Finish] (終了)をクリックします。
    [New Analysis] (新しい分析)ウィザードが開きます。
  9. 分析メタデータを設定し、[Finish] (終了)をクリックします。

    選択したHDFSファイルの新しい分析が自動的に作成され、分析エディター内に開きます。シンプル統計インジケーターがカラムに自動的に割り当てられます。

    分析は実際にHiveテーブルに適用されますが、外部テーブルメカニズムを使用してHDFSからのデータに基づいて統計を計算します。外部テーブルは、Hive外の元のファイルにデータを保持します。分析のために選択したHDFSファイルは削除され、以後は分析を実行できません。

  10. [Refresh Data] (データを更新)をクリックしてカラムの内容を表示します。
    [Select Columns] (カラムの選択)タブを使用して、分析するカラムを変更できます。
  11. 必要に応じて、[Select Indicators] (インジケーターを選択)をクリックし、カラムにインジケーターまたは新しいパターンを追加します。
  12. 分析を実行し、結果をエディターの[Analysis Results] (分析結果)ビューに表示します。

    カラム分析の詳細は、最初にすべきことをご覧ください。