パターンを使用して正しくない電話番号を検出する - Cloud

Talend Cloud Data Preparationユーザーガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
Last publication date
2024-02-21

プロファイリングエリアのパターンタブを使用してデータ内の低頻度パターンを見つけることで、Data Qualityの問題を簡単に検出できます。

この例では、データの修正にパターン分析が役立つユースケースを説明しています。次のデータセットには、形式がさまざまに異なる世界中の顧客の電話番号が含まれています。クオリティバーに示されているように、一部の電話番号が無効と見なされています。パターン分析を使用して、カラム内のエラーの性質を突き止めます。

データセットに電話番号が含まれている状態。

手順

  1. phoneカラムのヘッダーをクリックしてその内容を選択します。
  2. データセットのプロファイリングエリアで、[Pattern] (パターン)タブを選択します。
    このカラムに使用されているさまざまなパターンが、チャート形式で表示されます。デフォルトで、チャートには単語ベースのパターンを使用したデータ配分が表示されます。データプロファイリングエリアに表示される値またはパターンが15を超えている場合は、ページネーションシステムを使用してすべてを参照できます。
    [パターン]パネルが開かれている状態。

    [number]パターンのみが含まれているべき番号の中に異常が目立つことがわかります。実際、チャートの底部にあるバーは、レコードに[word]が含まれていることを示しています。

  3. このデータセット内で最低頻度のパターンに対応するバーをクリックします。
    そうすることで、対応する行にエラーを隔離するフィルターを適用したことになります。これで、プレパレーションには[word]([number]) [number]-[number]の形式に一致するJeffords(323) 254-9541の値がある行のみが表示されます。
    プレパレーションにWilliam Jeffordsに関する行が表示されている状態。

    前のカラムのフルネームの一部が電話番号に混在しているのがわかります。コピーして貼り付ける処理の手違いなどによるヒューマンエラーが原因と思われます。

  4. セルをダブルクリックして値を編集し、修正します。
  5. フィルターバーで、フィルターのバツ印をクリックするか、ごみ箱アイコンをクリックしてフィルターを消去し、再びデータセット全体を表示します。

タスクの結果

電話番号のパターン配分を見ることで、Data Qualityの問題を識別し、隔離できました。