メイン コンテンツをスキップする 補完的コンテンツへスキップ

カラム分析での正規表現とSQLパターンの使用

カラム分析では、正規表現とSQLパターンを使用できます。これらの表現とパターンにより、分析されたカラムに含まれるデータの内容、ストラクチャー、クオリティを定義できます。

正規表現とSQLパターンの詳細は、パターンとインジケーターおよびデータベーステーブルの分析ステップをご覧ください。

カラム分析への正規表現またはSQLパターンの追加

カラム分析に1つ(または複数)の正規表現とSQLパターンを追加して、分析するカラムの内容を一致させるために使用できます。

情報メモWarning:

使用しているデータベースが正規表現をサポートしていない場合、またはクエリーテンプレートがTalend Studioで定義されていない場合は、パターンを指定してカラム分析に追加する前に、ユーザー定義ファンクションとクエリーテンプレートを定義する必要があります。

詳細は、データベース内でユーザー定義ファンクションを管理をご覧ください。

Before you begin

  • Profilingパースペクティブを選択済みであること。
  • 分析エディターでカラム分析が開いていること。

Procedure

  1. 分析エディターの[Analyzed Columns] (分析済みカラム)ビューで、正規表現またはSQLパターンの追加先とするカラム名(この例ではemailカラム)の横にある[Add pattern] (パターンを追加)をクリックします。
    [Pattern Selector] (パターン選択)ダイアログボックスが開きます。
  2. [Patterns] (パターン)を展開し、カラム分析に追加する正規表現またはSQLパターンを参照して探します。
  3. 選択したカラムに追加する正規表現またはパターンのチェックボックスをオンにします。
  4. OKをクリックして、次のステップに進みます。
    追加した正規表現やSQLパターンは、[Analyzed Columns] (分析済みカラム)リストの分析カラムの下に表示されます。
    カラム分析に正規表現またはSQLパターンを追加するには、[DQ Repository] (DQリポジトリー)ツリービューでドラッグして、分析されるカラムにドロップできます。
  5. 分析を保存し、F6を押して実行します。
    エディターが[Analysis results] (分析結果)ビューに切り替わります。カラム分析の結果には、パターンマッチングの結果も含まれます。
    SQLパターンまたは正規表現に対する非マッチング率とマッチング率を示すグラフィック。

Results

カラム分析に追加する正規表現がデータベースに対して定義されていると、ELTジョブを生成して、有効な行または無効な行を再取得できます。

カラム分析に追加する正規表現がJavaまたはデフォルト言語に対して定義されていれば、ETLジョブを生成し、行を処理できます。

カラム分析のパターンを編集

Before you begin

分析エディターでカラム分析が開いていること。

Procedure

  1. 分析エディターの[Analyzed Columns] (分析済みカラム)セクションで、編集するパターンを右クリックし、コンテキストメニューから[Edit pattern] (パターンを編集)を選択します。
    [分析済みカラム]セクションからの分析済みカラムのコンテキストメニュー。
    パターンエディターが開き、選択したパターンのメタデータが表示されます。
    [パターン定義]セクションの概要。
  2. [Pattern Definition] (パターン定義)セクションで、パターン定義の編集、選択したデータベースの変更、または+ボタンを使って利用可能なデータベースに固有のその他のパターンの追加を行います。
    すべてのデータベースで使用するのに通常のパターンで十分であれば、リストからDefaultを選択します。
    分析エディターでパターンを編集する場合は、Talend Studioのリポジトリーでパターンを編集します。編集したパターンを使用する可能性のあるその他のすべての分析に適した編集であることを確認します。
  3. 変更を保存します。

パターンに対してデータを分析し表示する

Before you begin

データクオリティに必要なSQLエクスプローラーライブラリーをTalend Studioにインストール済みであること。

About this task

分析するカラムに1つ(または複数)のパターンを追加すると、指定したパターンに対してカラムの既存のデータがすべてチェックされます。カラム分析を実行したら、JavaエンジンまたはSQLエンジンを使用して、分析したカラムの有効または無効なすべてのデータにアクセスできます。

Javaエンジンを使って分析を実行すると、 Profiling パースペクティブで実際のデータのビューが開きます。SQLエンジンを使って分析を実行すると、Data Explorerパースペクティブで実際のデータのビューが開きます。

これらのライブラリーをインストールしていない場合、 Data Explorer パースペクティブがTalend Studioに表示されず、多くの機能が使用できなくなります。外部モジュールの識別とインストールの詳細は、Talend Studioに外部モジュールをインストールをご覧ください。

特定のパターンに対して分析したカラムで実際のデータを表示するには、以下のようにします:

Procedure

  1. パターンを使用するカラム分析を作成するには、 分析するカラムを定義およびカラム分析への正規表現またはSQLパターンの追加で説明されている手順に従います。
  2. カラム分析を実行します。
    エディターが[Analysis Results] (分析結果)ビューに切り替わります。
  3. 分析済みカラムの名前の下の[Pattern Matching] (パターンマッチング)に移動します。
    パターンマッチングの生成グラフと、一致結果の詳細を示すテーブルが表示されます。
    [パターンマッチング]セクションからのラベルのコンテキストメニュー。
  4. [Pattern Matching] (パターンマッチング)テーブルのパターン行を右クリックし、オプションを1つ選択します。
    オプション [Results] (結果)
    [View valid/invalid values] (有効な値/無効な値を表示) 選択したカラムに使用したパターンに対して測定された有効または無効なすべての値を含むビューが開きます。
    [View valid/invalid rows] (有効な行/無効な行を表示) 選択したカラムに使用したパターンに対して測定された有効または無効なすべての行を含むビューが開きます。
    [Generate Job] (ジョブの生成) 選択したカラムで有効な行、無効な行、または両方の行を再取得する既製ジョブを生成し、出力ファイルまたはデータベースにそれらを書き込みます。

    詳細は、一致した行および一致しない行を再取得をご覧ください。

Results

SQLエンジンを使用すると、Data Explorerパースペクティブでビューが開き、このデータエクスプロラーで設定した制限数に従って分析されたデータの有効行と無効行、または有効値と無効値が表示されます。

[データエクスプローラー]パースペクティブでの有効および無効な値と行。

このエクスプローラービューでは、分析に関する基本的な情報も得られます。この情報は同時に複数の分析で作業する際に非常に役立ちます。

データエクスプローラーでは、ユーザー名が空白の接続(MS SQL Serverのシングルサインオンなど)はサポートされていません。そのような接続を使ってデータを分析し、Data Explorerパースペクティブでデータ行を表示しようとすると、警告メッセージが表示され、SQL Serverへの接続認証情報を設定するよう求められます。

Javaエンジンを使用すると、Profilingパースペクティブでビューが開き、分析エディターの[Analysis parameters] (分析パラメーター)で設定した行数制限に基づいて有効なデータや無効なデータが表示されます。JavaエンジンとSQLエンジンの詳細は、JavaエンジンまたはSQLエンジンを使用をご覧ください。

[無効な行を表示]タブの概要。

エディターツールバーにある保存アイコンをクリックすると、実行したクエリーが保存され、[DQ Repository] (DQリポジトリー)ツリービューの[Libraries] (ライブラリー) > [Source Files] (ソースファイル)フォルダーの下に表示されます。詳細は、インジケーターで実行したクエリーの保存をご覧ください。

有効または無効な行の再取得

分析するカラムに1つ(または複数)のパターンを追加すると、指定したパターンに対してカラムの既存のデータがすべてチェックされます。

カラム分析を実行したら、有効な行、無効な行、またはその両方の行を再取得する既製ジョブを生成し、出力ファイルまたはデータベースにそれらを書き込めます。

詳細は、カラム分析で有効および無効な行を取得をご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。