カラム分析のプロファイリング結果は、電子メールと電話番号のカラムに重複レコードがあることを示しています。詳細は分析結果の表示をチェックして下さい。
分析結果から、選択したカラム内のユニークなレコードと重複レコードを区別する標準ジョブを生成することができます。そのジョブは、デフォルトでリジェクト区切り記号付きファイル内の重複をすべて出力し、分析で使用されるデータベースにユニーク値を書き込みます。
同じ手順を使って、電子メールまたは電話番号のカラムからも重複値を除去できます。
始める前に
-
StudioでProfilingパースペクティブを開いていること。
-
カラム分析を作成し、実行済みであること。詳細は、データの異常を識別するを参照して下さい。
手順
タスクの結果
重複値は出力ファイルに書き込まれ、ユニークなレコードはMySQL内のgettingstartedデータベースの新しいテーブルに書き込まれます。