Hiveテーブルを使用してHDFSファイルへのプロファイリング分析を作成する方法 - Cloud

Hiveテーブルを使用してHDFSファイルへのプロファイリング分析を作成する方法 - Cloud - 8.0

Talend Studioユーザーガイド

Version

Cloud

8.0

Language

日本語

Product

Talend Big Data

Talend Big Data Platform

Talend Cloud

Talend Data Fabric

Talend Data Integration

Talend Data Management Platform

Talend Data Services Platform

Talend ESB

Talend MDM Platform

Talend Real-Time Big Data Platform

Module

Talend Studio

Content

ジョブデザインと開発

Last publication date

2024-04-16

対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

始める前に

Profilingパースペクティブを選択済みであること。
HadoopディストリビューションおよびHDFSファイルへの接続が作成済みであること。

このタスクについて

プロファイリングできるファイル形式は次のとおりです。

TXT
CSV
Parquet (フラットストラクチャーの場合)

手順

[DQ Repository] (DQリポジトリー)ツリービューで、使用するHDFS接続を右クリックし、[Create Simple Analysis] (単純分析の作成)を選択します。
ダイアログボックスが開き、接続のHDFSスキーマがリスト表示されます。
プロファイリングを行うファイルのチェックボックスをオンにします。
Creation statusカラムに[Success] (成功)と表示されるまで待ちます。
注: 作成するHiveテーブルは、ファイルではなくフォルダーに基づくものです。したがって、ストラクチャーが異なるファイルは選択しないでください。
[Check Connection] (接続をチェック)をクリックして接続ステータスを確認し、[Next] (次へ)をクリックして次のステップに進みます。選択したファイルのスキーマがリスト表示されます。
必要に応じてスキーマを編集します。
スキーマにDateカラムがある場合は、日付パターンを必ず正確に設定してください。設定に間違いがあるとNullが返されます。
[Next] (次へ)をクリックしてウィザードに新しいビューを開きます。そのビューで、Hive接続のHDFSスキーマを示すテーブルを作成できます。
オプション: 必要に応じて、テーブルに新しい名前を入力します。テーブル名には小文字を使用してください。Hiveはテーブルを小文字で保存します。
以下のいずれかを行います:
- [Select one existed Hive Connection] (既存のHive接続を1つ選択)リストから、テーブルを作成するHive接続を選択します。
  テーブルを作成する前に、少なくとも1つのHive接続が正しく設定されている必要があります。作成済みのHive接続が1つもない場合、[Select one existed Hive Connection] (既存のHive接続を1つ選択)オプションは無効になっています。
  
  ウィザードのこのビューで [Create a new Hive Connection] (新規Hive接続の作成)オプションを選択すると、Hive接続を作成できるようになります。
- まず[Create a new Hive Connection] (新規Hive接続の作成)オプションを選択してHive接続を作成し、次にその新しい接続のテーブルを作成します。
[Finish] (終了)をクリックします。
[New Analysis] (新しい分析)ウィザードが開きます。
分析メタデータを設定し、[Finish] (終了)をクリックします。

選択したHDFSファイルの新しい分析が自動的に作成され、分析エディター内に開きます。シンプル統計インジケーターがカラムに自動的に割り当てられます。

分析は実際にHiveテーブルに適用されますが、外部テーブルメカニズムを使用してHDFSからのデータに基づいて統計を計算します。外部テーブルは、Hive外の元のファイルにデータを保持します。分析のために選択したHDFSファイルは削除され、以後は分析を実行できません。
[Refresh Data] (データを更新)をクリックしてカラムの内容を表示します。
[Select Columns] (カラムの選択)タブを使用して、分析するカラムを変更できます。
必要に応じて、[Select Indicators] (インジケーターを選択)をクリックし、カラムにインジケーターまたは新しいパターンを追加します。
分析を実行し、エディターの[Analysis Results] (分析結果)セクションに結果を表示させます。

カラム分析の詳細は、最初にすべきことをご覧ください。