データの異常を識別する - 7.1

Talend Data Management Platform入門ガイド

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Management Platform
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio

このユースケースでは、StudioのProfilingパースペクティブを使用して顧客の電子メールアドレスと電話番号を分析する方法を説明します。カラムに標準のインジケーターとパターンを使用し、一致/非一致の住所データを表示します。

顧客データをクリーニングし、その進展を監視するために、分析結果に基づいてProfilingジョブが生成されます。

続いて、Data Explorerパースペクティブを使用して、一致しないデータを参照することができます。

顧客データのプロファイリングおよびクレンジングのシーケンスは、以下の手順で行われます。

手順

  1. 顧客の電子メールアドレスと電話番号に基づいて、カラム分析を作成します。詳細は、カラム分析の定義を参照して下さい。
  2. 分析エディターからの顧客データが含まれるデータベースに接続します。詳細は、データベース接続の作成を参照して下さい。
  3. 行、空白、重複カウントなど、データに関する単純な統計を示すインジケーターを追加します。詳細は、システムインジケーターの設定を参照して下さい。
  4. 電子メールアドレスと電話番号を照合するための標準パターンを追加します。詳細は、パターンを設定するを参照して下さい。
  5. 分析を実行し、結果をテーブルとグラフに表示します。詳細は、分析結果の表示を参照して下さい。
  6. 分析されたデータのビューにアクセスし、無効なレコードを確認します。詳細は、非一致データの参照を参照して下さい。
  7. 分析結果から標準ジョブを生成し、電子メールと電話番号のカラムから重複値を除きます。詳細は、重複値の削除を参照して下さい。
  8. 分析結果から標準ジョブを生成し、標準の電子メール形式や電話番号形式に適合しない値を電子メールと電話番号のカラムから除きます。詳細は、一致しない値の除去を参照して下さい。