パターンを基にしてデータを分析し表示する - 7.1

Talend Real-time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Real-Time Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

このタスクについて

分析するカラムに1つ以上のパターンを追加すると、指定したパターンを基にして、カラムの既存のデータがすべてチェックされます。カラム分析を実行したら、JavaエンジンまたはSQLエンジンを使用して、分析したカラムの有効または無効なすべてのデータにアクセスできます。

Javaエンジンを使って分析を実行すると、Studio Profiling パースペクティブで実際のデータのビューが開きます。一方SQLエンジンを使って分析を実行すると、 Data Explorer パースペクティブで実際のデータのビューが開きます。

前提条件:
  • Studioで Profiling パースペクティブを選択していること。

  • Data Qualityに必要なSQLエクスプローラーライブラリーがStudioにインストール済みであること。

これらのライブラリーをインストールしていない場合、 Data Explorer パースペクティブがStudioに表示されず、多くの機能が使用できなくなります。外部モジュールの識別とインストールの詳細は、Talendインストレーションおよびアップグレードガイドを参照して下さい。

特定のパターンを基にして分析したカラムで実際のデータを表示するには、以下のようにします:

手順

  1. 分析するカラムを定義するおよびカラム分析に正規表現またはSQLパターンを追加するで説明されている手順を実行し、パターンを使用するカラム分析を作成します。
  2. カラム分析を実行します。
    エディターが[Analysis Results] (分析結果)ビューに切り替わります。
  3. 分析対象カラムの名前の下の[Pattern Matching] (パターンマッチング)に移動します。
    パターンマッチングの生成グラフと、一致結果の詳細を示すテーブルが表示されます。
  4. [Pattern Matching] (パターンマッチング)テーブルのパターン行を右クリックし、次のいずれかを選択します。

    オプション

    内容...

    [View valid/invalid values] (有効な値/無効な値を表示)

    選択したカラムに使用したパターンを基にして測定された有効または無効な全ての値を含むビューが開きます。

    [View valid/invalid rows] (有効な行/無効な行を表示)

    選択したカラムに使用したパターンを基にして測定された有効または無効な全ての行を含むビューが開きます。

    [Generate Job] (ジョブの生成)

    選択したカラムで有効な行、無効な行、または両方の行を再取得する既製ジョブを生成し、出力ファイルまたはデータベースにそれらを書き込みます。

    詳細は、一致した行および一致しない行の再取得を参照して下さい。

タスクの結果

SQLエンジンを使用すると、 Data Explorer パースペクティブにビューが開き、このパースペクティブで設定した制限数に従って分析されたデータの有効な行、無効な行、または有効な値、無効な値が表示されます。

このエクスプローラービューでは、分析に関する基本的な情報も得られます。この情報は同時に複数の分析で作業する際に非常に役立ちます。

データエクスプローラーでは、ユーザー名が空白の接続(MS SQL Serverのシングルサインオンなど)はサポートされていません。そのような接続を使ってデータを分析し、 Data Explorer パースペクティブでデータ行を表示しようとすると、警告メッセージが表示され、SQL Serverへの接続資格情報を設定するよう求められます。

Javaエンジンを使用すると、Studio Profiling パースペクティブでビューが開き、分析エディターの[Analysis parameters] (分析パラメーター)で設定した行数制限に従って有効または無効なデータが表示されます。詳細は、JavaエンジンまたはSQLエンジンの使用を参照して下さい。

エディターツールバーにある保存アイコンをクリックすると、実行したクエリが保存され、[DQ Repository] (DQリポジトリー)ツリービューの[Libraries] (ライブラリ) > [Source Files] (ソースファイル)フォルダーの下に表示されます。詳細は、インジケーターで実行したクエリの保存を参照して下さい。