カラムセット分析を完了させて実行する - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

このタスクについて

このカラムセット分析を実行する前に、インジケーターの設定、データフィルター、分析パラメーターを定義する作業が残っています。

前提条件:StudioのProfilingパースペクティブで、カラムセット分析が既に定義されていること。詳細は、分析するカラムのセットを定義するおよび分析対象カラムにパターンを追加するを参照して下さい。

手順

  1. [Analysis Parameters] (分析パラメーター)ビューで、次を実行します。
    • [Number of connections per analysis] (分析ごとの接続数)フィールドで、分析ごとに、選択したデータベースへの接続に対して許可する同時接続数を設定します。

      この数値はデータベースの利用可能リソース、つまりデータベースがサポートできる同時接続数に基づいて設定します。

    • [Execution engine] (実行エンジン)リストから、分析の実行に使用するJavaまたはSQLのいずれかのエンジンを選択します。

      • Javaエンジンを選択した場合、[Store data] (データの格納)チェックボックスはデフォルトでオンになっており、オフにすることはできません。分析が実行されると、いつでもプロファイリング結果をローカルで使用できるため、[Analysis Results] (分析結果) > [Data] (データ)ビューを通じて結果をドリルダウンできます。詳細は、パターンを基にデータをフィルタリングするを参照して下さい。

        Javaエンジンを使用して分析を実行すると、すべてのデータが取得され、ローカルに保存されたときにディスク容量が使用されます。一部の容量を開放するために、Talend-Studio>workspace>project_name>Work_MapDBのメインのStudioディレクトリ内に保存されたデータを削除できます。

      • SQLエンジンを選択した場合は、[Store data] (データの格納)チェックボックスを使用して、分析されたデータをローカルに格納し、[Analysis Results] (分析結果) > [Data] (データ)ビューでアクセスするかどうかを決定できます。

        注: 分析しているデータが非常に大きい場合は、分析計算の最後に結果を格納しないように、[Store data] (データの格納)チェックボックスをオフにしておくことをお勧めします。
  2. 分析を保存し、F6を押して実行します。
    分析エディターが[Analysis Results] (分析結果)ビューに切り替わり、分析結果がテーブルとグラフィックで表示されます。グラフ結果では、各カラム個別の値ではなく、分析対象カラムの完全レコードに関するシンプル統計が得られます。

    分析するカラムのセットのコンテンツに一致させるためにパターンを使う場合は、使用するパターンの総計を基に一致結果と非一致結果を表すグラフが表示されます。

  3. [Simple Statistics] (シンプル統計)テーブルで、インジケーター結果を右クリックして[View Rows] (行の表示)または[View Values] (値の表示)を選択します。
    • Javaエンジンを使用して分析を実行する場合、分析対象データのリストがProfilingパースペクティブで開きます。

    • SQLエンジンを使用して分析を実行する場合、分析対象データのリストがData Explorerパースペクティブで開きます。

  4. [All Match] (すべて一致)テーブルで、結果行を右クリックして[Generate an ETL job to handle rows] (行を処理するETLジョブを生成)を選択します。
    既製ジョブが生成され、Integrationパースペクティブで開きます。このジョブによって有効な行および無効な行がグループ化され、それぞれ別々のファイルに書き込まれます。詳細は、一致した行および一致しない行の取得を参照して下さい。
    注: [All Match] (すべて一致)テーブルは、Javaエンジンを使用して分析を実行する場合のみ使用できます。
  5. [Data] (データ)ビューで[Filter Data] (データのフィルタリング)をクリックし、使用されるパターンに基づいて有効な値および無効な値をフィルタリングします。
    Javaエンジンを使用して分析を実行する場合のみデータをフィルター処理できます。詳細は、パターンを基にデータをフィルタリングするを参照して下さい。