データの異常を識別 - 8.0

Talend Real-Time Big Data Platform 入門ガイド

Version
8.0
Language
日本語
Operating system
Real-Time Big Data Platform
Product
Talend Real-Time Big Data Platform
Module
Talend Administration Center
Talend Installer
Talend Runtime
Talend Studio
Content
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
Last publication date
2024-04-15

このユースケースでは、Talend StudioProfilingパースペクティブを使って顧客のメールアドレスと電話番号を分析する方法を説明します。カラムに標準のインジケーターとパターンを使用し、一致/非一致の住所データを表示します。

顧客データをクリーニングし、その進展を監視するために、分析結果に基づいてProfilingジョブが生成されます。

続いて、Data Explorerパースペクティブを使って、一致しないデータを参照できます。

顧客データのプロファイリングおよびクレンジングのシーケンスは、以下の手順で行われます。

手順

  1. 顧客のメールアドレスと電話番号に基づいて、カラム分析を作成します。
  2. 分析エディターからの顧客データが含まれるデータベースに接続します。
  3. データに関する単純な統計(行、空白、重複値など)を示すインジケーターを追加します。
  4. メールアドレスと電話番号を照合するための標準パターンを追加します。
  5. 分析を実行し、結果をテーブルとグラフに表示します。
  6. 分析されたデータのビューにアクセスし、無効なレコードを確認します。
  7. 分析結果から標準ジョブを生成し、メールと電話番号のカラムから重複値を除きます。
  8. 分析結果から標準ジョブを生成し、標準のメール形式や電話番号形式に適合しない値をメールと電話番号のカラムから除きます。