システムインジケーターの設定 - 7.0

Talend Real-Time Big Data Platform入門ガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Real-Time Big Data Platform
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
このカラム分析では、標準のインジケーターを使用して、電子メールと電話番号カラムの行、空白、重複カウントなどのシンプル統計を示します。

始める前に

  • StudioでProfilingパースペクティブを開いていること。

  • カラム分析が作成済みで、データベースへの接続が定義済みであること。詳細は、それぞれカラム分析の定義およびデータベース接続の作成を参照して下さい。

手順

  1. 分析エディターの[Data Preview] (データプレビュー)セクションで[Select indicators] (インジケーターの選択)をクリックし、[Indicator Selection] (インジケーター選択)ダイアログボックスを開きます。
  2. [Simple Statistics] (シンプル統計)を展開し、[Row Count] (行カウント)[Blank Count] (空白カウント)[Duplicate Count] (重複カウント)を選択します。[OK]をクリックしてウィザードを閉じます。

    データの一貫性を調べるために、EmailカラムとPhoneカラムの行カウント、空白カウント、重複カウントを確認します。

    それによって、[Analyzed Columns] (分析対象カラム)セクション内のカラムにインジケーターが付加されます。

  3. [Duplicate Count] (重複カウント)および[Blank Count] (空白カウント)インジケーターのとなりのアイコンをクリックし、[Upper threshold] (上限しきい値)フィールドを0に設定します。

    EmailカラムとPhoneカラムのしきい値を定義すると、分析結果の重複値と空白値のカウントが赤で書き込まれるため、大変便利です。