メイン コンテンツをスキップする 補完的コンテンツへスキップ

データのクレンジング

プレパレーションが保存されたので、他のデータセットの場合と同様に顧客データの作業を開始して、通常のすべてのファンクションの中から選択を行うことができます。

最初にインポートしたデータセットには2万行が含まれていますが、最初の1万行のサンプルだけがデフォルトにより表示されます。しかし心配はいりません。追加するすべてのプレパレーションステップをデータセット全体に適用できます。

データセット内のすべてのデータが有効でエラーのない状態にするために、いくつかの基本的なクレンジング操作を実行します。

たとえば、First_NameカラムとLast_Nameカラムの一部のエントリーに不要な空白があります。

各カラムの下のクオリティバーも、データに空のセルまたは無効なセルが含まれていることを示しています。Email (メール)カラムなどには両方があります。

1回の操作でプレパレーションからすべての空の行と無効な行を削除し、顧客名が含まれているカラムのフォーマットエラーを削除します。

手順

  1. First_Nameカラムのヘッダーをクリックします。
  2. Ctrlボタンを押したまま、Last_Nameカラムのヘッダーをクリックします。

    2つのカラムが選択されたので、両方のカラムに1回の操作でファンクションを適用できます。

  3. ファンクションパネル[Remove trailing and leading characters] (終了文字と先頭文字を削除)ファンクションを見つけてクリックし、オプションパネルを開きます。
  4. [Padding character] (パディング文字)ドロップダウンリストで[whitespace] (空白)を選択し、[Submit] (送信)をクリックします。

    選択したカラムから空白が削除されます。

    この関数の結果を新しいカラムに出力するには、[Create new column] (新しいカラムを作成)チェックボックスをオンにします。

  5. グリッドの左上にあるメニューアイコンをクリックして、[Display rows with invalid or empty values] (値が無効または空の行を表示)を選択します。

    フィルターがデータに適用され、空のセルまたは無効なセルの行だけが表示されるので、これらの行をまとめて削除するのが容易になります。

  6. ファンクションパネル[Delete these Filtered Rows] (フィルタリング済みの行を削除)をクリックして、該当するファンクションを適用します。

    フィルター処理された行がすべて削除されたら、フィルターバーのごみ箱アイコンをクリックしてフィルターを消去します。

タスクの結果

2つの簡単な操作で、データセット内のエラーをすべて削除し、データの質が改善されました。

各カラムのクオリティバーはすべてグリーンになり、プレパレーションに無効なデータが残っていないことを示しています。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。