行の重複 - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation

[Remove duplicate rows] (重複行を削除)ファンクションを使用すると、完全に重複している全ての行を簡単に削除し、データセットに1行のみを保持することができます。

注: このファンクションはSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。

たとえば、コピーアンドペーストの失敗などのヒューマンエラー、さらには自動操作のためにスプレッドシートの情報が重複することがあります。この例では、受信したデータセットには、顧客情報がすべてシステムで複製された行が含まれています。

[Remove duplicate rows] (重複行を削除)を使用すると、データセットを簡単に消去できます。

手順

  1. データセットの任意のカラムのヘッダーをクリックします。
  2. ファンクションパネルの[Table] (テーブル)タブをクリックして、テーブル全体で適用できるファンクションの一覧を表示します。
  3. [Remove duplicate rows] (重複行を削除)ファンクションにカーソルを合わせて結果を表示し、クリックして適用します。

タスクの結果

重複した情報はすべて1回の簡単な操作で削除でき、データセットでは各行1行のみが表示されるようになります。