データの異常を識別する - 7.0

Talend MDM Platform入門ガイド

EnrichVersion
7.0
EnrichProdName
Talend MDM Platform
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend MDM Server
Talend MDM Web UI
Talend Runtime
Talend Studio
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング

このユースケースでは、StudioのProfilingパースペクティブを使用して顧客の電子メールアドレスと電話番号を分析する方法を説明します。カラムに標準のインジケーターとパターンを使用し、一致/非一致の住所データを表示します。

顧客データをクリーニングし、その進展を監視するために、分析結果に基づいてProfilingジョブが生成されます。

続いて、Data Explorerパースペクティブを使用して、一致しないデータを参照することができます。

顧客データのプロファイリングおよびクレンジングのシーケンスは、以下の手順で行われます。

手順

  1. 顧客の電子メールアドレスと電話番号に基づいて、カラム分析を作成します。詳細は、カラム分析の定義を参照して下さい。
  2. 分析エディターからの顧客データが含まれるデータベースに接続します。詳細は、データベース接続の作成を参照して下さい。
  3. 行、空白、重複カウントなど、データに関する単純な統計を示すインジケーターを追加します。詳細は、システムインジケーターの設定を参照して下さい。
  4. 電子メールアドレスと電話番号を照合するための標準パターンを追加します。詳細は、パターンを設定するを参照して下さい。
  5. 分析を実行し、結果をテーブルとグラフに表示します。詳細は、分析結果の表示を参照して下さい。
  6. 分析されたデータのビューにアクセスし、無効なレコードを確認します。詳細は、非一致データの参照を参照して下さい。
  7. 分析結果から標準ジョブを生成し、電子メールと電話番号のカラムから重複値を除きます。詳細は、重複値の削除を参照して下さい。
  8. 分析結果から標準ジョブを生成し、標準の電子メール形式や電話番号形式に適合しない値を電子メールと電話番号のカラムから除きます。詳細は、一致しない値の除去を参照して下さい。