プロファイリングエリアのパターンタブを使用してデータ内の低頻度パターンを見つけることで、Data Qualityの問題を簡単に検出できます。
この例では、データの修正にパターン分析が役立つユースケースを説明しています。次のデータセットには、形式がさまざまに異なる世界中の顧客の電話番号が含まれています。クオリティバーに示されているように、一部の電話番号が無効と見なされています。パターン分析を使用して、カラム内のエラーの性質を突き止めます。
手順
-
phoneカラムのヘッダーをクリックしてその内容を選択します。
-
データセットのプロファイリングエリアで、[Pattern] (パターン)タブを選択します。
このカラムに使用されているさまざまなパターンが、チャート形式で表示されます。デフォルトで、チャートには単語ベースのパターンを使用したデータ配分が表示されます。データプロファイリングエリアに表示される値またはパターンが15を超えている場合は、ページネーションシステムを使用してすべてを参照できます。
[number]
パターンのみが含まれているべき番号の中に異常が目立つことがわかります。実際、チャートの底部にあるバーは、レコードに[word]
が含まれていることを示しています。
-
このデータセット内で最低頻度のパターンに対応するバーをクリックします。
そうすることで、対応する行にエラーを隔離するフィルターを適用したことになります。これで、プレパレーションには
[word]([number]) [number]-[number]
の形式に一致する
Jeffords(323) 254-9541の値がある行のみが表示されます。
前のカラムのフルネームの一部が電話番号に混在しているのがわかります。コピーして貼り付ける処理の手違いなどによるヒューマンエラーが原因と思われます。
-
セルをダブルクリックして値を編集し、修正します。
-
フィルターバーで、フィルターのバツ印をクリックするか、ごみ箱アイコンをクリックしてフィルターを消去し、再びデータセット全体を表示します。
タスクの結果
電話番号のパターン配分を見ることで、Data Qualityの問題を識別し、隔離できました。