カラム分析の確定と実行 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

このタスクについて

分析するカラムを定義し、インジケーターを設定したら、分析するデータにフィルターを適用し、カラム分析の実行に使用するエンジンを決めます。

前提条件:
  • StudioのProfilingパースペクティブの分析エディターでカラム分析が開いていること。詳細は、分析するカラムを定義するを参照して下さい。

  • カラム分析のシステムインジケーターまたはユーザー定義インジケーターを設定していること。詳細は、カラムにインジケーターを設定するを参照して下さい。

  • Data Qualityに必要なSQLエクスプローラーライブラリがStudioにインストール済みであること。

分析するカラムの定義とインジケーターの設定で定義したカラム分析を完了するには、次の手順に従います。

手順

  1. [Data Filter] (データフィルター)ビューで、必要に応じて、SQL WHERE句を入力し、分析を実行するデータをフィルター処理します。
  2. [Analysis Parameters] (分析パラメーター)ビューで、次の手順に従います。
    1. [Number of connections per analysis] (分析ごとの接続数)フィールドで、分析ごとに、選択したデータベースへの接続に対して許可する同時接続数を設定します。

      この数値はデータベースの利用可能リソース、つまりデータベースがサポートできる同時接続数に基づいて設定します。

      注:

      次への接続を使用する場合、接続コンカレンシーはサポートされません:

      • SQLiteデータベース、または

      • Spark上のHiveデータベース

      Hive2サーバーへの接続を使用する場合、接続コンカレンシーはサポートされます。

    2. [Execution engine] (実行エンジン)リストから、分析の実行に使用するJavaまたはSQLのいずれかのエンジンを選択します。
      Javaエンジンを選択した場合は、次の手順に従います。
      • [Analysis Results] (分析結果)ビューで、[Allow drill down] (ドリルダウン許可)を選択すると、[Row Count] (行カウント)を除くすべてのインジケーターの結果をドリルダウンできます。

      • [Max number of rows kept per indicator] (インジケーターごとに維持する最大行数)フィールドに、ドリルダウンするデータ行数を入力します。

    これらのエンジンの詳細については、JavaエンジンまたはSQLエンジンの使用を参照して下さい。
  3. 分析エディターの[Contexts] (コンテキスト)ビューでコンテキスト変数を定義した場合は、次の手順に従います。
    1. [Data Filter] (データフィルター)ビューおよび[Analysis Parameter] (分析パラメーター)ビューを使用して、データをフィルター処理するためのコンテキスト変数を設定/選択し、それぞれの分析ごとの同時接続数を決定します。
    2. [Context Group Settings] (コンテキストグループ設定)ビューで、リストから、分析を実行するために使用するコンテキスト環境を選択します。
    コンテキストと変数の詳細については、分析でのコンテキスト変数の使用方法を参照して下さい。
  4. 分析を保存し、F6を押して実行します。
    エディターが[Analysis Results] (分析結果)ビューに切り替わります。
    SQLエンジンを使用している場合は、分析では複数のインジケーターが並列して実行され、分析が進行中でも、チャート内の結果は更新されます。
    以下は、[fullname] (フルネーム)カラムの頻度とテキスト統計を表すグラフィックです。
    頻度とテキスト統計の詳細は、それぞれ[Advanced statistics] (詳細統計)および[Text statistics] (テキスト統計)を参照して下さい。
    以下は、[email] (電子メール)カラムのパターン頻度とパターン低頻度統計を表すグラフィックです。
    テーブル内のパターンでは、電子メールの値を表すのにaAを使用します。各パターンには30文字まで使用できます。文字の合計数が30を超えると、パターンは次のように表されます: aaaaaAAAAAaaaaaAAAAAaaaaaAAAAA...<文字の合計数>。テーブル内のパターン上にマウスポインターを置くと、元の値が表示されます。
    これらのインジケーターの詳細は、[Pattern frequency statistics] (パターン頻度統計)を参照して下さい。
    以下は、total_salesカラムの概要統計を表すグラフィックです。
    これらのインジケーターの詳細は、[Summary statistics] (概要統計)を参照して下さい。
    また、以下はtotal_salesカラムの指標およびベンフォードの法則度数統計を表すグラフィックです。
    不正会計と経費のインジケーターとして通常使用されるベンフォードの法則度数統計の詳細は、不正の検出を参照して下さい。

タスクの結果

Javaエンジンを使ってこの分析を実行する場合、[Analysis Parameters] (分析パラメーター)ビューの[Allow drill down] (ドリルダウン許可)チェックボックスを選択すると、分析したデータをローカルで格納できるため、[Analysis Results] (分析結果) > [Data] (データ)ビューでアクセスできます。[Max number kept per indicator] (インジケーターごとに維持する最大行数)フィールドを使って、アクセス可能にするデータ行数を決定できます。

Javaエンジンを選択すると、システムではJava正規表現が最初に検索され、何も見つからないと、SQL正規表現が検索されます。

注: Studioでサポートされていないデータベースへの接続を選択した場合(ODBCメソッドまたはJDBCメソッドを使用)、Javaエンジンを使って、選択したデータベースに作成したカラム分析を実行することが推奨されます。Javaエンジンの詳細は、JavaエンジンまたはSQLエンジンの使用を参照して下さい。

SQLエンジンを使ってこの分析を実行した場合、インジケーターを右クリックし、リストから[View executed query] (実行したクエリを表示する)オプションを選択すると、付加した各インジケーターに対して実行したクエリを確認できます。ただし、Javaエンジンを使用するとSQLクエリにアクセスできなくなり、このオプションをクリックすると警告メッセージが表示されます。

JavaエンジンとSQLエンジンの詳細は、JavaエンジンまたはSQLエンジンの使用を参照して下さい。