パターンを使った不正な電話番号の検出 - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation

プロファイリングエリアのパターンタブを使用してデータ内の低頻度パターンを見つけることで、Data Qualityの問題を簡単に検出できます。

このサンプルでは、データの修正にパターン分析が役立つユースケースを説明しています。次のデータセットには、形式がさまざまに異なる世界中の顧客の電話番号が含まれています。クオリティバーに示されているように、一部の電話番号が無効と見なされています。パターン分析を使用して、カラム内のエラーの性質を突き止めます。

手順

  1. [phone] (電話)カラムのヘッダーをクリックしてその内容を選択します。
  2. データセットのプロファイリングエリアで、[Pattern] (パターン)タブを選択します。
    このカラムに使用されているさまざまなパターンが、チャート形式で表示されます。デフォルトで、チャートには単語ベースのパターンを使用したデータ配分が表示されます。データプロファイリングエリアに表示される値またはパターンが15を超えている場合は、改ページシステムを使用してすべてを参照できます。

    [number]パターンのみが含まれているべき番号の中に異常が目立つことがわかります。実際、チャートの底部にあるバーは、レコードに[word]が含まれていることを示しています。

  3. このデータセット内で最低頻度のパターンに対応するバーをクリックします。
    そうすることで、対応する行にエラーを隔離するフィルターを適用したことになります。これで、プレパレーションには[word]([number]) [number]-[number]の形式に一致するJeffords(323) 254-9541の値がある行のみが表示されます。

    前のカラムのフルネームの一部が電話番号に混在しているのがわかります。コピーして貼り付ける処理の手違いなどによるヒューマンエラーが原因と思われます。

  4. セルをダブルクリックして値を編集し、修正します。
  5. フィルターバーで、フィルターのバツ印をクリックするか、ゴミ箱アイコンをクリックしてフィルターを消去し、再びデータセット全体を表示します。

タスクの結果

電話番号のパターン配分を見ることで、Data Qualityの問題を識別し、隔離できました。