カラム内の値の重複除去 - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation

[Deduplicate rows with identical values] (同じ値を含む行の重複除去)ファンクションを使用して、他の行と一部または全体が重複している行を容易に削除することができます。

注: このファンクションはSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。

たとえば、コピーアンドペーストの失敗などのヒューマンエラー、さらには自動操作のためにスプレッドシートの情報が重複することがあります。顧客の基本情報が含まれている次のデータセットで、[firstname] (名)[lastname] (姓)の両方のカラムに重複する値が含まれていることがわかります。

JakePeralta[firstname] (名)と思われるエントリで、個別に見ると[lastname] (姓)のカラムに重複があります。ただし、よく確かめてみると、行 1、2、4からの情報は、姓または名のどちらかを共有する別の顧客に属していることがわかります。他方、行3は行2の正真正銘の重複であり、一部の情報に欠けもあります。

2つのカラムに重複除去オペレーションを別々に実行すると、姓または名がたまたま一致する顧客に関する貴重な情報が失われてしまうため、[Deduplicate rows with identical values] (同じ値を含む行の重複除去)ファンクションを使用して、2つのカラムを同時に処理します。このファンクションにより、姓と名の両方が重複している行(行2と3)だけでなく、データセットの以降の部分に含まれている可能性のある他の重複も削除されます。

手順

  1. [Ctrl]キーを押したまま[firstname] (名)カラムと[lastname] (姓)カラムのヘッダーをクリックし、カラムのコンテンツを選択します。
  2. ファンクションパネルで「Concatenate with (次と連結)」と入力し、結果をクリックして関連ファンクションのオプションを表示します。
  3. [Matching criterion] (一致条件)ドロップダウンリストで、[Exact value] (正確な値)など、適用する制限ルールを選択します。
    • [Simplified text] (簡略化テキスト): 句読点、ホワイトスペース、大文字と小文字の区別、アクセスと記号は無視されます。たとえば、Pâté-en-croûteが参照値の場合、pate-eN-cRouteが含まれた行は削除されますが、Pâté n croûteが含まれた行は削除されません。
    • [Ignore case and accents] (大文字小文字アクセントを無視): 大文字と小文字の区別、アクセント記号は無視されます。たとえば、Pâté-en-croûteが参照値の場合、pate-en-crouteが含まれた行は削除されますが、pate en crouteが含まれた行は削除されません。
    • Exact value (正確な値): 最も厳密な検証ルール。行が削除されるのは、参照値との完全一致がある場合のみです。
  4. [Submit] (送信)をクリックします。

タスクの結果

行2の重複だった行は削除されましたが、同じ値を含む他の行は、2つのカラムの条件に一致しないため、保持されました。