カラム分析を確定および実行 - Cloud - 7.3

Talend Studioユーザーガイド

Version
Cloud
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2024-02-13
対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

分析するカラムを定義し、インジケーターを設定したら、分析するデータにフィルターを適用し、カラム分析の実行に使用するエンジンを決めます。

始める前に

  • 分析エディターでカラム分析が開いていること。
  • カラム分析でシステムインジケーターまたは事前定義済みインジケーターを設定していること。
  • データクオリティに必要なSQLエクスプローラーライブラリーをStudioにインストール済みであること。

手順

  1. [Data Filter] (データフィルター)ビューで、必要に応じて、SQL WHERE句を入力し、分析を実行するデータをフィルター処理します。
  2. [Analysis Parameters] (分析パラメーター)ビューで、次の手順に従います。
    1. [Number of connections per analysis] (分析ごとの接続数)フィールドで、分析ごとに、選択したデータベースへの接続に対して許可する同時接続数を設定します。
      この数値はデータベースの利用可能リソース、つまりデータベースがサポートできる同時接続数に基づいて設定します。
      注: SQLite データベースまたはSpark上のHiveデータベースへの接続を使用する場合、接続の同時実行はサポートされません。Hive2サーバーへの接続を使用する場合、接続コンカレンシーはサポートされます。
    2. [Execution engine] (実行エンジン)リストから、分析の実行に使用したいエンジン(JavaまたはSQL)を選択します。
      Javaエンジンを選択した場合は、次の操作を行います。
      • [Analysis Results] (分析結果)ビューで[Allow drill down] (ドリルダウンを許可)チェックボックスを選択すると、すべてのインジケーターの結果を表示できます。ただし、[Row Count] (行数)インジケーターには適用されません。
      • [Max number of rows kept per indicator] (インジケーターごとに維持する最大行数)フィールドに、ドリルダウンしたいデータ行数を入力します。
  3. 分析エディターの[Contexts] (コンテキスト)ビューでコンテキスト変数を定義した場合は、次の手順に従います。
    1. [Data Filter] (データフィルター)ビューおよび[Analysis Parameter] (分析パラメーター)ビューを使用して、データをフィルター処理するためのコンテキスト変数を設定/選択し、それぞれの分析ごとの同時接続数を決定します。
    2. [Context Group Settings] (コンテキストグループ設定)ビューで、リストから、分析を実行するために使用するコンテキスト環境を選択します。
  4. 分析を保存し、F6を押して実行します。
    エディターが[Analysis Results] (分析結果)ビューに切り替わります。
    SQLエンジンを使用している場合は、分析では複数のインジケーターが並列して実行され、分析が進行中でも、チャート内の結果は更新されます。
    以下は、fullnameカラムの頻度とテキスト統計を表すグラフィックです。
    頻度とテキスト統計の詳細は、それぞれ[Advanced statistics] (詳細統計)およびテキスト統計をご覧ください。
    以下は、emailカラムのパターン頻度とパターン低頻度統計を表すグラフィックです。
    テーブル内のパターンでは、aAを使ってメールの値を表します。各パターンには30文字まで使用できます。文字の合計数が30を超えると、パターンは次のように表されます: aaaaaAAAAAaaaaaAAAAAaaaaaAAAAA...<合計文字数>。テーブル内のパターン上にマウスポインターを置くと、元の値が表示されます。
    これらのインジケーターの詳細は、[Pattern frequency statistics] (パターン頻度統計)をご覧ください。
    以下は、total_salesカラムの集計統計を表すグラフィックです。
    これらのインジケーターの詳細は、集計統計をご覧ください。
    また、以下はtotal_salesカラムの指標およびベンフォードの法則度数統計を表すグラフィックです。
    不正会計と経費のインジケーターとして通常使用されるベンフォードの法則度数統計の詳細は、不正の検出をご覧ください。

タスクの結果

Javaエンジンを使ってこの分析を実行する場合、[Analysis Parameters] (分析パラメーター)ビューの[Allow drill down] (ドリルダウンを許可)チェックボックスをオンにすると、分析したデータをローカルで保存できるので、[Analysis Results] (分析結果) > [Data] (データ)ビューでアクセスできます。[Max number kept per indicator] (インジケーターごとに維持する最大行数)フィールドを使って、アクセス可能にするデータ行数を決定できます。

Javaエンジンを選択すると、システムではJava正規表現が最初に検索され、何も見つからないと、SQL正規表現が検索されます。

SQLエンジンを使ってこの分析を実行した場合、インジケーターを右クリックし、リストから[View executed query] (実行したクエリーを表示する)オプションを選択すると、付加した各インジケーターに対して実行したクエリーを確認できます。ただし、Javaエンジンを使用するとSQLクエリーにアクセスできなくなり、このオプションをクリックすると警告メッセージが表示されます。

Javaエンジンの詳細は、JavaエンジンまたはSQLエンジンの使用をご覧ください。