行の重複除去 - Cloud

Talend Cloud Data Preparationユーザーガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
Last publication date
2024-03-26

[Remove duplicate rows] (重複行を削除)ファンクションを使用すると、完全に重複しているすべての行を簡単に削除し、データセットに1行のみを保持できます。

注: このファンクションはSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。

たとえば、コピーアンドペーストの失敗などのヒューマンエラー、さらには自動操作のためにスプレッドシートの情報が重複することがあります。この例では、受信したデータセットには、顧客情報がすべてシステムで複製された行が含まれています。

データセットに重複する顧客情報が含まれている状態。

[Remove duplicate rows] (重複行を削除)ファンクションを使えば、データセットを簡単に消去できます。

手順

  1. データセットの任意のカラムのヘッダーをクリックします。
  2. ファンクションパネルの[Table] (テーブル)タブをクリックして、テーブル全体で適用できるファンクションの一覧を表示します。
  3. [Remove duplicate rows] (重複行を削除)ファンクションにカーソルを置き、目のアイコンをクリックしてその効果をプレビューします。
    データセットに重複する顧客情報が含まれ、強調表示されている状態。
  4. [Submit] (送信)をクリックしてファンクションを適用します。

タスクの結果

重複した情報はすべて1回の簡単なアクションで削除でき、データセットでは各行1行のみが表示されるようになります。