対象製品...Big Data Platform
Cloud API Services Platform
Cloud Big Data Platform
Cloud Data Fabric
Cloud Data Management Platform
Data Fabric
Data Management Platform
Data Services Platform
MDM Platform
Real-Time Big Data Platform
分析するカラムを定義し、インジケーターを設定したら、分析するデータにフィルターを適用し、カラム分析の実行に使用するエンジンを決めます。
始める前に
- 分析エディターでカラム分析が開いていること。
- カラム分析でシステムインジケーターまたは事前定義済みインジケーターを設定していること。
- データクオリティに必要なSQLエクスプローラーライブラリーをStudioにインストール済みであること。
手順
-
[Data Filter] (データフィルター)ビューで、必要に応じて、SQL WHERE句を入力し、分析を実行するデータをフィルター処理します。
-
[Analysis Parameters] (分析パラメーター)ビューで、次の手順に従います。
-
[Number of connections per analysis] (分析ごとの接続数)フィールドで、分析ごとに、選択したデータベースへの接続に対して許可する同時接続数を設定します。
この数値はデータベースの利用可能リソース、つまりデータベースがサポートできる同時接続数に基づいて設定します。
注: SQLite データベースまたはSpark上のHiveデータベースへの接続を使用する場合、接続の同時実行はサポートされません。Hive2サーバーへの接続を使用する場合、接続コンカレンシーはサポートされます。
-
[Execution engine] (実行エンジン)リストから、分析の実行に使用したいエンジン(JavaまたはSQL)を選択します。
Javaエンジンを選択した場合は、次の操作を行います。
- [Analysis Results] (分析結果)ビューで[Allow drill down] (ドリルダウンを許可)チェックボックスを選択すると、すべてのインジケーターの結果を表示できます。ただし、[Row Count] (行カウント)インジケーターには適用されません。
- [Max number of rows kept per indicator] (インジケーターごとに維持する最大行数)フィールドに、ドリルダウンしたいデータ行数を入力します。
-
分析エディターの[Contexts] (コンテキスト)ビューでコンテキスト変数を定義した場合は、次の手順に従います。
-
[Data Filter] (データフィルター)ビューおよび[Analysis Parameter] (分析パラメーター)ビューを使用して、データをフィルター処理するためのコンテキスト変数を設定/選択し、それぞれの分析ごとの同時接続数を決定します。
-
[Context Group Settings] (コンテキストグループ設定)ビューで、リストから、分析を実行するために使用するコンテキスト環境を選択します。
-
分析を保存し、F6を押して実行します。
エディターが[Analysis Results] (分析結果)ビューに切り替わります。
SQLエンジンを使用している場合は、分析では複数のインジケーターが並列して実行され、分析が進行中でも、チャート内の結果は更新されます。
以下は、fullnameカラムの頻度とテキスト統計を表すグラフィックです。
以下は、emailカラムのパターン頻度とパターン低頻度統計を表すグラフィックです。
テーブル内のパターンでは、aとAを使ってメールの値を表します。各パターンには30文字まで使用できます。文字の合計数が30を超えると、パターンは次のように表されます: aaaaaAAAAAaaaaaAAAAAaaaaaAAAAA...<合計文字数>。テーブル内のパターン上にマウスポインターを置くと、元の値が表示されます。
以下は、total_salesカラムの集計統計を表すグラフィックです。
これらのインジケーターの詳細は、
集計統計をご覧ください。
また、以下はtotal_salesカラムの指標およびベンフォードの法則度数統計を表すグラフィックです。
不正会計と経費のインジケーターとして通常使用されるベンフォードの法則度数統計の詳細は、
不正の検出をご覧ください。
タスクの結果
Javaエンジンを使ってこの分析を実行する場合、
[Analysis Parameters] (分析パラメーター)ビューの
[Allow drill down] (ドリルダウンを許可)チェックボックスをオンにすると、分析したデータをローカルで保存できるので、ビューでアクセスできます。
[Max number kept per indicator] (インジケーターごとに維持する最大行数)フィールドを使って、アクセス可能にするデータ行数を決定できます。
Javaエンジンを選択すると、システムではJava正規表現が最初に検索され、何も見つからないと、SQL正規表現が検索されます。
SQLエンジンを使ってこの分析を実行した場合、インジケーターを右クリックし、リストから[View executed query] (実行したクエリーを表示する)オプションを選択すると、付加した各インジケーターに対して実行したクエリーを確認できます。ただし、Javaエンジンを使用するとSQLクエリーにアクセスできなくなり、このオプションをクリックすると警告メッセージが表示されます。