メイン コンテンツをスキップする 補完的コンテンツへスキップ

最初にすべきこと

Talend Studioでは、データベースカラムおよび区切り付きファイル内で使用可能なデータに関して検証し、統計と情報を収集できます。

Profiling パースペクティブから、次のことができます。

  • カラム分析を最初からデザインし、分析設定を手動で定義する。
  • 選択したタイプに適したインジケーターで自動的に設定されたカラム分析を作成する。
  • [Semantic-aware Analysis] (セマンティック認識分析)ウィザードを使い、セマンティックリポジトリー内に収集された情報に基づいてカラム分析を自動的に設定する。詳細は、セマンティック認識分析を使用する手順をご覧ください。

手順

  1. カラム分析を作成します:
    1. [DQ Repository] (DQリポジトリー)ツリービューで、[Data Profiling] (データプロファイリング)を展開します。
    2. [Analysis] (分析)フォルダーを右クリックし、[New Analysis] (新しい分析)を選択します。
    3. [Column Analysis] (カラム分析)フォルダーから、以下を選択します。

      オプション

      目的

      [Basic Column Analysis] (基本的なカラム分析)

      空のカラム分析を生成し、そこで分析するカラムを選択し、各カラムにインジケーターを手動で割り当てることができます。

      詳細は、データベースカラムで基本分析を作成をご覧ください。

      [Discrete Data Analysis] (離散データ分析)

      [Bin Frequency] (Bin頻度)インジケーターおよびシンプル統計インジケーターで設定済みの数値データに対するカラム分析を作成します。必要に応じて連続データを離散Bin (範囲)に変換するために、分析をさらに設定するか、変更できます。

      詳細は、離散データの分析をご覧ください。

      [Nominal Values Analysis] (名義分析)

      名義データに適したインジケーターで設定済みの名義データに対するカラム分析を作成します。すなわち、[Value Frequency] (値の頻度)[Simple Statistics] (シンプル統計)[Text Statistics] (テキスト統計)のインジケーターです。

      これらの統計の結果の例は、カラム分析を確定および実行をご覧ください。

      [Pattern Frequency Analysis] (パターン頻度分析)

      [Pattern Frequency] (パターン頻度)[Pattern Low Frequency] (パターン低頻度)、および行とNull値カウントインジケーターで設定済みのカラム分析を作成します。

      この分析では、データ内のパターンを把握できます。頻度の高いパターンと低いパターンが示されるため、クオリティの問題をより容易に特定できます。

      これらの統計の結果の例は、カラム分析を確定および実行をご覧ください。

      [Semantic Discovery Analysis] (セマンティック検索分析)

      データカラムのセマンティックカテゴリーを検討し、セマンティックリポジトリーから関連するコンセプトを使用した後で、データに最適なインジケーターとパターンで設定済みのカラム分析を作成します。

      詳細は、セマンティック認識分析を使用する手順をご覧ください。

      [Summary Statistics Analysis] (統計分析概要)

      [Summary Statistics] (概要統計)インジケーター、行数およびNull値カウントインジケーターで設定済みの数値データに対するカラム分析を作成します。

      これにより、範囲、四分位範囲、および平均値と中央値を計算することで、数値データのシェイプを把握できます。

      集計統計のユースケースは、システムおよびユーザー定義インジケーターの設定およびカラム分析を確定および実行をご覧ください。

  2. 通常、1つ(または複数)のカラムでのデータプロファイリングは、次の順序で行われます。
    1. データソースに接続します。詳細は、データソースへの接続を作成をご覧ください。
    2. データプロファイリング処理を実行するカラムを1つ、または複数定義する。
      カラムに含まれるデータの内容、ストラクチャー、クオリティを定義します。
    3. 分析または監視する必要のあるカラムに対して、事前定義済みシステムインジケーターまたはユーザー定義インジケーターを設定する。
      これらのインジケーターは、さまざまなパターンの実装を通じて得られた結果を表します。
    4. データの内容、ストラクチャー、クオリティを定義する基となるパターンをカラム分析に追加する。
    5. これらの分析からレポートを生成し、チームメンバーで結果を共有する。
      これらのレポートを使って現在の統計と過去の統計を比較することで、データの向上または劣化を判断できます。詳細は、レポートとはをご覧ください。

次のタスク

データベースカラムで基本分析を作成セクションでは、データベースの1つ(または複数)のカラムの内容を分析する手順を説明します。

ファイルで基本的なカラム分析を作成セクションでは、区切り付きファイルのカラムを分析する手順を説明します。

Talend Studioにはロックモードが搭載されています。このロックモードにより、項目を最初に開くユーザーはその項目をロックでき、"読み取り/書き込み"権限が得られます。その他のユーザーが同時に同じ項目を開こうとすると、読み取り専用のアクセスが許可されます。詳細は、ロックの基本概念をご覧ください。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。