最初にすべきこと - 7.1

Talend Real-time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Real-Time Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

Talend Studioでは、データベースカラムおよび区切り記号付きファイル内で使用可能なデータに関して検証し、統計と情報を収集することができます。

Profilingパースペクティブから、次のことができます。

  • カラム分析を最初からデザインし、分析設定を手動で定義する。
  • 選択したタイプに適したインジケーターを使用して自動的に設定されたのカラム分析を作成する。
  • [Semantic-aware Analysis] (セマンティック分析)ウィザードを使用して、セマンティックリポジトリー内に収集された情報に基づいてカラム分析を自動的に設定する。詳細は、セマンティック分析を使用する手順を参照して下さい。

手順

  1. カラム分析を作成するには、以下の手順で行います:
    1. [DQ Repository] (DQリポジトリー)ツリービューで、[Data Profiling] (データプロファイリング)を展開します。
    2. [Analysis] (分析)フォルダーを右クリックし、[New Analysis] (新規分析)を選択します。
    3. [Column Analysis] (カラム分析)フォルダーから、以下を選択します。

      オプション

      目的

      [Basic Column Analysis] (カラム分析)

      空のカラム分析を生成し、そこで分析するカラムを選択し、各カラムにインジケーターを手動で割り当てることができます。

      詳細は、データベースカラムでの基本分析の作成を参照して下さい。

      [Discrete Data Analysis]離散データ分析

      [Bin Frequency] (Bin頻度)インジケーターおよびシンプル統計インジケーターで設定済みの数値データに対するカラム分析を作成します。必要に応じて連続データを離散Bin (範囲)に変換するために、分析をさらに設定するか、または変更することができます。

      詳細は、離散データの分析を参照して下さい。

      [Nominal Values Analysis] (名義値分析)

      名義データに適したインジケーターで設定済みの名義データに対するカラム分析を作成します。すなわち、[Value Frequency] (値の頻度)[Simple Statistics] (シンプル統計)[Text Statistics] (テキスト統計)のインジケーターです。

      これらの統計の結果の例については、カラム分析の確定と実行を参照して下さい。

      [Pattern Frequency Analysis] (頻出パターン分析)

      [Pattern Frequency] (パターン頻度)[Pattern Low Frequency] (パターン低頻度)、および行とNull値カウントインジケーターで設定済みのカラム分析を作成します。

      この分析では、データ内のパターンを見出すことができます。頻度の高いパターンと低いパターンが示されるため、品質の問題をより容易に特定することができます。

      これらの統計の結果の例については、カラム分析の確定と実行を参照して下さい。

      パターン頻度統計インジケーターでサポートされているデータベースおよびエンジンの詳細は、パターン頻度統計インジケーターの使用時に使用されるエンジンとサポートされるデータベースタイプのリスト(https://help.talend.com)のドキュメントを参照して下さい。

      [Semantic Discovery Analysis] (セマンティック検索分析)

      データカラムのセマンティックカテゴリーを検討し、セマンティックリポジトリーから関連するコンセプトを使用した後で、データに最適なインジケーターとパターンで設定済みのカラム分析を作成します。

      詳細は、セマンティック分析を使用する手順を参照して下さい。

      [Summary Statistics Analysis] (集計統計分析)

      [Summary Statistics] (集計統計)インジケーター、行カウントおよびNull値カウントインジケーターで設定済みの数値データに対するカラム分析を作成します。

      これにより、範囲、四分位範囲、および平均値と中央値を計算することで、数値データのシェイプを把握することができます。

      集計統計のユースケースは、システムまたはユーザー定義インジケーターの設定およびカラム分析の確定と実行を参照して下さい。

  2. 通常、1つ以上のカラムでのデータプロファイリングは、次の順序で行われます。
    1. データソースに接続します。詳細は、データソースへの接続の作成を参照して下さい。
    2. カラムに含まれるデータの内容、構造、クオリティを定義するデータプロファイリングを実行するために、1つ以上のカラムを定義する。
    3. 分析または監視する必要のあるカラムに対して、システムインジケーターまたはユーザー定義インジケーターを設定する。これらのインジケーターは、さまざまなパターンの実装を通じて得られた結果を表します。
    4. データの内容、構造、クオリティを定義する基となるパターンをカラム分析に追加する。
    5. これらの分析からレポートを生成し、チームメンバーで結果を共有する。これらのレポートを使用して現在と履歴の統計を比較し、データクオリティの向上または劣化を判断できます。詳細は、レポートとは?を参照して下さい。

次のタスク

データベースカラムでの基本分析の作成セクションでは、データベースの1つ以上のカラムの内容を分析する手順を説明します。

ファイルに対するカラム分析の作成セクションでは、区切り記号付きファイルのカラムを分析する手順を説明します。

Talend Studioにはロックモードが搭載されています。このロックモードにより、アイテムを最初に開くユーザーは、そのアイテムをロックすることができ、"読み取り/書き込み"権限が得られます。その他のユーザーが同時に同じアイテムを開こうとすると、読み取り専用のアクセスが許可されます。詳細は、ロックの基本概念を参照して下さい。