パターンを基にしてデータを分析し表示する - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio

このタスクについて

分析するカラムに1つ以上のパターンを追加すると、指定したパターンを基にして、カラムの既存のデータがすべてチェックされます。カラム分析を実行したら、JavaエンジンまたはSQLエンジンを使用して、分析したカラムの有効または無効なすべてのデータにアクセスできます。

Javaエンジンを使って分析を実行すると、Studioの Profiling パースペクティブで実際のデータのビューが開きます。SQLエンジンを使って分析を実行すると、 Data Explorer パースペクティブで実際のデータのビューが開きます。

前提条件:
  • Studioで Profiling パースペクティブを選択していること。

  • Data Qualityに必要なSQLエクスプローラーライブラリーがStudioにインストール済みであること。

これらのライブラリーをインストールしていない場合、 Data Explorer パースペクティブがStudioに表示されず、多くの機能が使用できなくなります。外部モジュールの識別とインストールの詳細は、『』『 Talendインストールおよびアップグレードガイド 』を参照してください。

特定のパターンを基にして分析したカラムで実際のデータを表示するには、以下のようにします:

手順

  1. 分析するカラムを定義するおよびカラム分析への正規表現またはSQLパターンの追加で説明されている手順を実行し、パターンを使用するカラム分析を作成します。
  2. カラム分析を実行します。
    エディターが[Analysis Results] (分析結果)ビューに切り替わります。
  3. 分析対象カラムの名前の下の[Pattern Matching] (パターンマッチング)に移動します。
    パターンマッチングの生成グラフと、一致結果の詳細を示すテーブルが表示されます。
  4. [Pattern Matching] (パターンマッチング)テーブルのパターン行を右クリックし、次のいずれかを選択します。

    オプション

    内容...

    [View valid/invalid values] (有効な値/無効な値を表示)

    選択したカラムに使用したパターンを基にして測定された有効または無効なすべての値を含むビューが開きます。

    [View valid/invalid rows] (有効な行/無効な行を表示)

    選択したカラムに使用したパターンを基にして測定された有効または無効なすべての行を含むビューが開きます。

    [Generate Job] (ジョブの生成)

    選択したカラムで有効な行、無効な行、または両方の行を再取得する既製ジョブを生成し、出力ファイルまたはデータベースにそれらを書き込みます。

    詳細は、一致した行および一致しない行の再取得を参照してください。

タスクの結果

SQLエンジンを使用すると、 Data Explorer パースペクティブでビューが開き、このデータエクスプロラーで設定した制限数に従って分析されたデータの有効行や無効行、または有効値や無効値が表示されます。

このエクスプローラービューでは、分析に関する基本的な情報も得られます。この情報は同時に複数の分析で作業する際に非常に役立ちます。

データエクスプローラーでは、ユーザー名が空白の接続(MS SQL Serverのシングルサインオンなど)はサポートされていません。そのような接続を使ってデータを分析し、 Data Explorer パースペクティブでデータ行を表示しようとすると、警告メッセージが表示され、SQL Serverへの接続資格情報を設定するよう求められます。

Javaエンジンを使用すると、 Studioの Profiling パースペクティブでビューが開き、分析エディターの[Analysis parameters] (分析パラメーター)で設定した行数制限に従って、有効なデータや無効なデータが表示されます。詳細は、JavaエンジンまたはSQLエンジンの使用を参照してください。

エディターツールバーにある保存アイコンをクリックすると、実行したクエリーが保存され、[DQ Repository] (DQリポジトリー)ツリービューの[Libraries] (ライブラリー) > [Source Files] (ソースファイル)フォルダーの下に表示されます。詳細は、インジケーターで実行したクエリーの保存を参照してください。