メイン コンテンツをスキップする 補完的コンテンツへスキップ

パターンを使って区切り付きファイルでカラムセット分析を作成

この分析タイプでは、特定のカテゴリーに該当するレコードの数(行数、NULL値の数、重複を除いた一意値の数、重複値の数、空白フィールドの数など)でシンプル統計が行われます。

シンプル統計インジケーターの詳細は、シンプル統計をご覧ください。

また、この分析タイプにパターンを追加し、「すべて」のパターンにマッチする行数を単一の結果棒グラフに表示させることもできます。

区切り付きファイル内で分析するカラムのセットを定義

区切り付きファイル内にあるカラムのセットのコンテンツを分析できます。このセットは、定義されたテーブルやテーブル全体の一部のカラムしか表現していない場合があります。

その場合はJavaエンジンを使って、作成された分析を実行できます。

Before you begin

Talend StudioProfilingパースペクティブで、区切り付きファイルへの接続が少なくとも1つ設定されていること。詳細は、データベースに接続をご覧ください。
情報メモWarning: この分析タイプを実行する時は、分析するカラムのセットにプライマリキーのカラムを含めないようにしてください。

Procedure

  1. Profilingパースペクティブで、[Data Profiling] (データプロファイリング)を展開します。
  2. [Analyses] (分析)を右クリックし、[New Analysis] (新しい分析)を選択します。[Create New Analysis] (新しい分析を作成)ダイアログボックスが開きます。
  3. [Table Analysis] (テーブル分析)セクションを展開し、[Column Set Analysis] (カラムセット分析)を選択して[Next] (次へ)をクリックします。
  4. 該当するフィールドで、カラム分析のメタデータ([Purpose] (目的)[Description] (説明)[Author] (作成者))を設定し、[Next] (次へ)をクリックして次のステップに進みます。
  5. [FileDelimited]接続を展開し、分析するカラムのセットを参照します。
  6. 分析するカラムを選択し、[Finish] (終了)をクリックしてこの[New analysis] (新しい分析)ウィザードを閉じます。
    定義された分析メタデータと共に分析エディターが開き、新規作成された分析用のフォルダーが[DQ Repository] (DQリポジトリー)ツリービュー内の[Analyses] (分析)の下に表示されます。
    サンプルデータが[Data Preview] (データプレビュー)セクションに表示され、選択したカラムが分析エディターの[Analyzed Column] (分析済みカラム)セクションに表示されます。
  7. 必要に応じて、[Analyzed Columns] (分析済みカラム)ビューの[Connection] (接続)ボックスで他の接続を選択します。このボックスには、Talend Studioで作成されたすべての接続と該当するデータベース名がリスト表示されます。
    デフォルトでは、前のステップで選択した区切り付きファイル接続が[Connection] (接続)ボックスに表示されます。
  8. 必要に応じて、[Select columns to analyze] (分析するカラムを選択)リンクをクリックしてダイアログボックスを開き、カラムの選択を変更します。
    分析するカラムを変更する[カラムの選択]ダイアログボックス。
    情報メモNote: [Table filter] (テーブルフィルター)フィールドや[Column filter] (カラムフィルター)フィールドに必要なテキストを入力すると、テーブルやカラムのリストをフィルタリングできます。リストには、入力したテキストに対応するテーブルまたはカラムのみ表示されます。
  9. カラムリストで、分析するカラムのチェックボックスをオンにしてOKをクリックし、次のステップに進みます。
    この例では、区切りファイル内の6セットのカラム、つまり口座番号 (account_num)、教育(education)、メールアドレス(email)、ファーストネーム(fname)、ラストネーム(lname)、性別(gender)を分析します。行数、重複を除いた一意値の数、重複値の数を識別します。
    分析する6つのカラムセットの概要。

区切り付きファイル内の分析済みカラムにパターンを追加

カラム分析のように特定のパターンに対して各カラムを検証するのではなく、分析済みカラムにパターンを追加して全パターンに対して完全レコード(すべてのカラム)を検証できます。結果グラフは、使用されたパターンの総計を表す単一棒グラフとなります。このグラフには、「すべて」のパターンにマッチする行数が表示されます。

情報メモWarning: カラムセット分析で特定のパターンを使用できるようになる前に、Java用のパターン定義が存在しない場合はパターン設定で手動で設定する必要があります。設定しない場合は警告メッセージが表示され、Java正規表現の定義を設定するよう求められます。

Before you begin

Talend StudioProfilingパースペクティブの分析エディターで、カラムセット分析が開かれていること。

Procedure

選択したカラムに追加する式のチェックボックスをオンにし、OKをクリックします。
追加された正規表現は[Analyzed Columns] (分析済みカラム)ビューの分析カラムの下に表示され、[All Match] (すべて一致)インジケーターは[Indicators] (インジケーター)ビューの[Indicators] (インジケーター)リストに表示されます。
追加された正規表現は[分析済みカラム]セクションにあるカラムの下に表示されます。

区切り付きファイルでカラムセット分析をを確定および実行

このカラムセット分析を実行する前に、インジケーターの設定、データフィルター、分析パラメーターを定義する作業が残っています。

Before you begin

Talend StudioProfilingパースペクティブで、カラムセット分析が定義されていること。

Procedure

  1. [Analysis Parameters] (分析パラメーター)セクションで[Allow drill down] (ドリルダウンを許可)チェックボックスをオンにし、現在の分析によって分析されるデータをローカルに格納します。
    [分析パラメーター]セクションでの[ドリルダウンを許可]チェックボックスの場所。
  2. [Max number kept per indicator] (インジケーターごとに維持する最大行数)フィールドに、アクセス可能にするデータ行数を入力します。
    情報メモNote: [Allow drill down] (ドリルダウンを許可)チェックボックスがデフォルトで選択され、インジケーターごとに表示される分析データの最大行数が50に設定されます。
  3. 分析を保存し、F6を押して実行します。

Results

エディターが[Analysis Results] (分析結果)ビューに切り替わり、定義されたカラムセットの分析に使用したシンプル統計インジケーターに対応するグラフィカルな結果が表示されます。
[シンプル統計]セクションにある[シンプル統計]インジケーターに対応するグラフィカルな結果。

分析するカラムのセットのコンテンツに一致させるためにパターンを使う場合は、使用するパターンの総計に対して一致結果と非一致結果を表すグラフが表示されます。

[すべて一致]セクションのパターンに対する一致値と不一致値のグラフィカルな結果。

パターンに対して分析データをフィルタリング

About this task

区切り付きファイルの分析データをフィルタリングする手順は、データベース分析の場合と同じです。詳細は、パターンに対してデータをフィルタリングをご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。