Big Data Platform
Cloud API Services Platform
Cloud Big Data Platform
Cloud Data Fabric
Cloud Data Management Platform
Data Fabric
Data Management Platform
Data Services Platform
MDM Platform
Real-Time Big Data Platform
始める前に
HadoopディストリビューションおよびHDFSファイルへの接続が作成済みであること。
手順
-
[DQ Repository] (DQリポジトリー)ツリービューで、使用するHDFS接続を右クリックし、[Create Simple Analysis] (単純分析の作成)を選択します。
ダイアログボックスが開き、接続のHDFSスキーマがリスト表示されます。
-
プロファイリングを行うファイルのチェックボックスをオンにします。
Creation statusカラムに[Success] (成功)と表示されるまで待ちます。注: 作成するHiveテーブルは、ファイルではなくフォルダーに基づくものです。したがって、ストラクチャーが異なるファイルは選択しないでください。
-
[Check Connection] (接続チェック)をクリックして接続ステータスを確認し、[Next] (次へ)をクリックしてウィザードに新しいビューを開きます。そのビューには、選択したファイルのスキーマがリスト表示されます。
-
必要に応じてスキーマを編集します。
スキーマにDateカラムがある場合は、日付パターンを必ず正確に設定してください。設定に間違いがあると
Null
が返されます。 - [Next] (次へ)をクリックしてウィザードに新しいビューを開きます。そのビューで、Hive接続のHDFSスキーマを示すテーブルを作成できます。
- オプション:
必要に応じて、テーブルに新しい名前を入力します。テーブル名には小文字を使用してください。Hiveはテーブルを小文字で保存します。
-
以下のいずれかを行います:
- [Select one existed Hive Connection] (既存のHive接続を1つ選択)リストから、テーブルを作成するHive接続を選択します。
テーブルを作成する前に、少なくとも1つのHive接続が正しく設定されている必要があります。作成済みのHive接続が1つもない場合、[Select one existed Hive Connection] (既存のHive接続を1つ選択)オプションは無効になっています。
ウィザードのこのビューで [Create a new Hive Connection] (新規Hive接続の作成)オプションを選択すると、Hive接続を作成できるようになります。
- まず[Create a new Hive Connection] (新規Hive接続の作成)オプションを選択してHive接続を作成し、次にその新しい接続のテーブルを作成します。
- [Select one existed Hive Connection] (既存のHive接続を1つ選択)リストから、テーブルを作成するHive接続を選択します。
-
[Finish] (終了)をクリックします。
[New Analysis] (新しい分析)ウィザードが開きます。
-
分析メタデータを設定し、[Finish] (終了)をクリックします。
選択したHDFSファイルの新しい分析が自動的に作成され、分析エディター内に開きます。シンプル統計インジケーターがカラムに自動的に割り当てられます。
分析は実際にHiveテーブルに適用されますが、外部テーブルメカニズムを使用してHDFSからのデータに基づいて統計を計算します。外部テーブルは、Hive外の元のファイルにデータを保持します。分析のために選択したHDFSファイルは削除され、以後は分析を実行できません。
-
[Refresh Data] (データの更新)をクリックしてカラムの内容を表示します。
[Select Columns] (カラムの選択)タブを使用して、分析するカラムを変更できます。
- 必要に応じて、[Select Indicators] (インジケーターを選択)をクリックし、カラムにインジケーターまたは新しいパターンを追加します。
-
分析を実行し、結果をエディターの[Analysis Results] (分析結果)ビューに表示します。
カラム分析の詳細は、最初にすべきことをご覧ください。