プレパレーションが保存されたので、他のデータセットの場合と同様に顧客データの作業を開始して、通常のすべてのファンクションの中から選択を行うことができます。
最初にインポートしたデータセットには2万行が含まれていますが、最初の1万行のサンプルだけがデフォルトにより表示されます。しかし心配はいりません。追加するすべてのプレパレーションステップをデータセット全体に適用できます。
データセット内のすべてのデータが有効でエラーのない状態にするために、いくつかの基本的なクレンジング操作を実行します。
たとえば、First_NameカラムとLast_Nameカラムの一部のエントリーに不要な空白があります。
各カラムの下のクオリティバーも、データに空のセルまたは無効なセルが含まれていることを示しています。Email (メール)カラムなどには両方があります。
1回の操作でプレパレーションからすべての空の行と無効な行を削除し、顧客名が含まれているカラムのフォーマットエラーを削除します。
手順
-
First_Nameカラムのヘッダーをクリックします。
-
[Ctrl]ボタンを押したまま、Last_Nameカラムのヘッダーをクリックします。
2つのカラムが選択されたので、両方のカラムに1回の操作でファンクションを適用できます。
-
ファンクションパネルで[Remove trailing and leading characters] (終了文字と先頭文字を削除)ファンクションを見つけてクリックし、オプションパネルを開きます。
-
[Padding character] (パディング文字)ドロップダウンリストで[whitespace] (空白)を選択し、[Submit] (送信)をクリックします。
選択したカラムから空白が削除されます。
この関数の結果を新しいカラムに出力するには、[Create new column] (新しいカラムを作成する)チェックボックスを選択します。
-
グリッドの左上にあるメニューアイコンをクリックして、[Display rows with invalid or empty values] (値が無効または空の行を表示)を選択します。
フィルターがデータに適用され、空のセルまたは無効なセルの行だけが表示されるので、これらの行をまとめて削除するのが容易になります。
-
ファンクションパネルの[Delete these filtered rows] (フィルター処理された行を削除)をクリックして、該当するファンクションを適用します。
フィルター処理された行がすべて削除されたら、フィルターバーのゴミ箱アイコンをクリックしてフィルターを消去します。
タスクの結果
2つの簡単な操作で、データセット内のエラーをすべて削除し、データの質が改善されました。
各カラムのクオリティバーはすべてグリーンになり、プレパレーションに無効なデータが残っていないことを示しています。