システムまたはユーザー定義インジケーターの設定 - 7.0

カラム分析

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Data Fabric
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio

このタスクについて

前提条件: Studioの Profiling パースペクティブの分析エディターでカラム分析が開いていること。詳細は、分析するカラムを定義するを参照して下さい。

手順

  1. 分析エディターの[Data preview] (データプレビュー)ビューで[Select indicators] (インジケーターの選択)をクリックし、[Indicator Selection] (インジケーター選択)ダイアログボックスを開きます。
  2. [Indicator Selection] (インジケーター選択)ダイアログボックスから、次の手順に従います。
    注:

    -SQLエンジンを使って分析を実行する際に、データベースの日付カラムにパターン頻度統計を使用するのはあまり有用ではありません。すべての日付が1つの形式で表示されるため、このインジケーターによってデータクオリティ問題が検出されることはありません。Oracleの日付カラムのプロファイリングについては、 Date handling when profiling columns in Oracle (https://help.talend.com)でドキュメンテーションを参照して下さい。

    -[Date Pattern Frequency] (日付頻度パターンテーブル)を分析の日付カラムに付加すると、分析結果から日付の正規表現を生成できます。詳細は、[Date Pattern Frequency] (日付パターン頻度テーブル)から正規表現を生成するを参照して下さい。

  3. [OK]をクリックします。
    [Analyzed Columns] (分析対象カラム)ビューの分析されるカラムに、選択したインジケーターが付加されます。
    この例の分析により、以下が提供され、計算されます。
    • すべてのカラムのシンプル統計。 これらのインジケーターの詳細は、[Simple statistics] (シンプル統計)を参照して下さい。

    • テキストフィールドの特性と、[fullname] (フルネーム)カラム内の個別の各レコードに対する最も頻度の高い値の数。詳細は、それぞれ[Text statistics] (テキスト統計)および[Advanced statistics] (詳細統計)を参照して下さい。

    • 頻度の高いパターンと低いパターンを示す[email] (電子メール)カラム内のパターン。これは、品質に関する問題の特定を容易にするためのものです。これらのインジケーターの詳細は、[Pattern frequency statistics] (パターン頻度統計)を参照して下さい。

    • total_salesカラム内の数値データの範囲、四分位範囲、平均および中央値。これらのインジケーターの詳細は、[Summary statistics] (概要統計)を参照して下さい。

    • 売上額における桁1から9の頻度。これは、不正を検出するためです。詳細は、不正の検出を参照して下さい。