データベースカラムでの基本分析の作成 - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio

このタスクについて

JavaエンジンまたはSQLエンジンを使って、分析を最初からビルドし、1つ以上のカラムの内容を分析し、作成した分析を実行できます。このタイプの分析では、各カラムの値に関する統計が得られます。

Javaエンジンを使ってカラム分析を行う場合、自分で設定したパラメーターに従って分析されたデータを確認できます。詳細は、『JavaエンジンまたはSQLエンジンの使用』を参照して下さい。

注: Javaエンジンを使って、大規模なデータセットまたは多くの問題を含むデータに対してカラム分析を実行する場合、最大メモリサイズのしきい値を設定して分析を実行するよう推奨します。そうでないと、Javaヒープエラーが発生することがあります。詳細は、『最大メモリサイズスレッショルドの定義』を参照して下さい。

カラムのセットも分析できます。このタイプの分析では、全てのデータセット(フルレコード)に関する統計が得られます。詳細は、『データベース内のテーブルの分析』を参照して下さい。

また、分析された特定のカラムから重複値を削除するジョブを生成できます。重複値の削除の詳細は、分析対象カラムの重複値を特定するジョブの生成を参照して下さい。

カラム分析の作成は、次の手順で行います。

手順

  1. 分析するカラムを定義する。

    詳細は、分析するカラムを定義するを参照して下さい。

  2. カラムに対して定義済みのシステムインジケーターまたはユーザー定義インジケーターを設定する。

    詳細は、カラムにインジケーターを設定するを参照して下さい。インジケーターのタイプおよび管理の詳細は、インジケーターを参照してください。

  3. データの内容、構造、クオリティを定義する基となるパターンを追加する。
    詳細は、『カラム分析での正規表現とSQLパターンの使用』を参照して下さい。

    パターンのタイプおよび管理の詳細は、パターンを参照してください。