データの異常を識別 - 7.3

Talend Data Fabric 入門ガイド

Version
7.3
Language
日本語
Operating system
Data Fabric
Product
Talend Data Fabric
Module
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
Content
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
Last publication date
2023-07-24

このユースケースでは、StudioのProfilingパースペクティブを使って顧客のメールアドレスと電話番号を分析する方法を説明します。カラムに標準のインジケーターとパターンを使用し、一致/非一致の住所データを表示します。

顧客データをクリーニングし、その進展を監視するために、分析結果に基づいてProfilingジョブが生成されます。

続いて、Data Explorerパースペクティブを使って、一致しないデータを参照できます。

顧客データのプロファイリングおよびクレンジングのシーケンスは、以下の手順で行われます。

手順

  1. 顧客のメールアドレスと電話番号に基づいて、カラム分析を作成します。
  2. 分析エディターからの顧客データが含まれるデータベースに接続します。
  3. 行、空白、重複値など、データに関する単純な統計を示すインジケーターを追加します。
  4. メールアドレスと電話番号を照合するための標準パターンを追加します。
  5. 分析を実行し、結果をテーブルとグラフに表示します。
  6. 分析されたデータのビューにアクセスし、無効なレコードを確認します。
  7. 分析結果から標準ジョブを生成し、メールと電話番号のカラムから重複値を除きます。
  8. 分析結果から標準ジョブを生成し、標準のメール形式や電話番号形式に適合しない値をメールと電話番号のカラムから除きます。