最初にすべきこと - Cloud - 7.3

Talend Studioユーザーガイド

Version
Cloud
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

Talend Studioでは、データベースカラムおよび区切り付きファイル内で使用可能なデータに関して検証し、統計と情報を収集できます。

Profiling パースペクティブから、次のことができます。

  • カラム分析を最初からデザインし、分析設定を手動で定義する。
  • 選択したタイプに適したインジケーターで自動的に設定されたカラム分析を作成する。
  • [Semantic-aware Analysis] (セマンティック認識分析)ウィザードを使い、セマンティックリポジトリー内に収集された情報に基づいてカラム分析を自動的に設定する。詳細は、セマンティック認識分析を使用する手順をご覧ください。

手順

  1. カラム分析を作成します:
    1. [DQ Repository] (DQリポジトリー)ツリービューで、[Data Profiling] (データプロファイリング)を展開します。
    2. [Analysis] (分析)フォルダーを右クリックし、[New Analysis] (新しい分析)を選択します。
    3. [Column Analysis] (カラム分析)フォルダーから、以下を選択します。

      オプション

      目的

      [Basic Column Analysis] (基本的なカラム分析)

      空のカラム分析を生成し、そこで分析するカラムを選択し、各カラムにインジケーターを手動で割り当てることができます。

      詳細は、データベースカラムでの基本分析の作成をご覧ください。

      [Discrete Data Analysis] (離散データ分析)

      [Bin Frequency] (Bin頻度)インジケーターおよびシンプル統計インジケーターで設定済みの数値データに対するカラム分析を作成します。必要に応じて連続データを離散Bin (範囲)に変換するために、分析をさらに設定するか、または変更できます。

      詳細は、離散データの分析をご覧ください。

      [Nominal Values Analysis] (名義分析)

      名義データに適したインジケーターで設定済みの名義データに対するカラム分析を作成します。すなわち、[Value Frequency] (値の頻度)[Simple Statistics] (シンプル統計)[Text Statistics] (テキスト統計)のインジケーターです。

      これらの統計の結果の例については、カラム分析を確定および実行をご覧ください。

      [Pattern Frequency Analysis] (パターン頻度分析)

      [Pattern Frequency] (パターン頻度)[Pattern Low Frequency] (パターン低頻度)、および行とNull値カウントインジケーターで設定済みのカラム分析を作成します。

      この分析では、データ内のパターンを把握できます。頻度の高いパターンと低いパターンが示されるため、クオリティの問題をより容易に特定できます。

      これらの統計の結果の例については、カラム分析を確定および実行をご覧ください。

      [Semantic Discovery Analysis] (セマンティック検索分析)

      データカラムのセマンティックカテゴリーを検討し、セマンティックリポジトリーから関連するコンセプトを使用した後で、データに最適なインジケーターとパターンで設定済みのカラム分析を作成します。

      詳細は、セマンティック認識分析を使用する手順をご覧ください。

      [Summary Statistics Analysis] (統計分析概要)

      [Summary Statistics] (概要統計)インジケーター、行数およびNull値カウントインジケーターで設定済みの数値データに対するカラム分析を作成します。

      これにより、範囲、四分位範囲、および平均値と中央値を計算することで、数値データのシェイプを把握できます。

      概要統計のユースケースは、システムまたはユーザー定義インジケーターの設定およびカラム分析を確定および実行をご覧ください。

  2. 通常、1つ(または複数)のカラムでのデータプロファイリングは、次の順序で行われます。
    1. データソースに接続します。詳細は、データソースへの接続の作成をご覧ください。
    2. データプロファイリング処理を実行するカラムを1つ、または複数定義する。
      カラムに含まれるデータの内容、ストラクチャー、クオリティを定義します。
    3. 分析または監視する必要のあるカラムに対して、事前定義済みシステムインジケーターまたはユーザー定義インジケーターを設定する。
      これらのインジケーターは、さまざまなパターンの実装を通じて得られた結果を表します。
    4. データの内容、ストラクチャー、クオリティを定義する基となるパターンをカラム分析に追加する。
    5. これらの分析からレポートを生成し、チームメンバーで結果を共有する。
      これらのレポートを使って現在の統計と過去の統計を比較することで、データの向上または劣化を判断できます。詳細は、レポートとはをご覧ください。

次のタスク

データベースカラムでの基本分析の作成セクションでは、データベースの1つ(または複数)のカラムの内容を分析する手順を説明します。

ファイルに対する基本的なカラム分析の作成セクションでは、区切り付きファイルのカラムを分析する手順を説明します。

Talend Studioにはロックモードが搭載されています。このロックモードにより、項目を最初に開くユーザーはその項目をロックでき、"読み取り/書き込み"権限が得られます。その他のユーザーが同時に同じ項目を開こうとすると、読み取り専用のアクセスが許可されます。詳細は、ロックの基本概念をご覧ください。