カラム内の値の重複を除去
[Deduplicate rows with identical values] (同じ値を含む行の重複除去)ファンクションを使用して、他の行と一部または全体が重複している行を容易に削除できます。
情報メモ注: このファンクションはSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。
たとえば、コピーアンドペーストの失敗などのヒューマンエラー、さらには自動操作のためにスプレッドシートの情報が重複することがあります。顧客の基本情報が含まれている次のデータセットで、firstnameとlastnameの両方のカラムに重複する値が含まれていることがわかります。
JakeとPeraltaはfirstnameと思われるエントリーであり、個別に見るとlastnameカラムに重複があります。ただし、よく確かめてみると、行 1、2、4からの情報は、ラストネームまたは名のどちらかを共有する別の顧客に属していることがわかります。他方、行3は行2の正真正銘の重複であり、一部の情報に欠けもあります。
2つのカラムに重複除去オペレーションを別々に実行すると、ラストネームまたはファーストネームがたまたま一致する顧客に関する貴重な情報が失われてしまうため、[Deduplicate rows with identical values] (同じ値を含む行の重複除去)ファンクションを使用して、2つのカラムを同時に処理します。このファンクションにより、ラストネームと名の両方が重複している行(行2と3)だけでなく、データセットの以降の部分に含まれている可能性のある他の重複も削除されます。
手順
タスクの結果
このページは役に立ちましたか?
このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。