対象製品...Big Data Platform
Cloud API Services Platform
Cloud Big Data Platform
Cloud Data Fabric
Cloud Data Management Platform
Data Fabric
Data Management Platform
Data Services Platform
MDM Platform
Real-Time Big Data Platform
始める前に
Talend Studioの
Profilingパースペクティブの分析エディターでカラム分析が開いていること。
手順
-
分析エディターの[Data preview] (データプレビュー)ビューで[Select Indicators] (インジケーターを選択)をクリックし、[Indicator Selection] (インジケーター選択)ダイアログボックスを開きます。
-
[Indicator Selection] (インジケーター選択)ダイアログボックスから、次の手順に従います。
注:
SQLエンジンで分析を実行する場合、データベースの日付型のカラムに対してパターン頻度統計を使うことは有用ではありません。すべての日付が1種類の形式で表示されるため、このインジケーターによってデータクオリティ問題が検出されることはありません。
分析の日付カラムに[Date Pattern Frequency] (日付パターン頻度)を付けると、分析結果から日付の正規表現を生成できます。
-
[OK]をクリックします。
[Analyzed Columns] (分析済みカラム)ビューの分析されるカラムに、選択したインジケーターが付加されます。
この例の分析により、以下が提供され、計算されます。
- 全カラムのシンプル統計。
- テキスト統計インジケーターを用いたテキストフィールドの特性、およびインジケーターにおける各個別レコードの最頻値の数。
- 頻度の高いパターンと低いパターンを示すemailカラム内のパターン。これは、パターン頻度統計インジケーターを使ってクオリティ問題をさらに容易に特定するためのものです。
- 要約統計インジケーターを使った、total_salesカラム内の数値データの範囲、四分位範囲、平均、中央値。
- 売上額における1から9までの数字の頻度。これは、不正検出インジケーターを使って不正を検出するためのものです。