カラム内の値の重複を除去 - 7.3

Talend Data Preparationユーザーガイド

Version
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
Last publication date
2023-11-29

[Deduplicate rows with identical values] (同じ値を含む行の重複除去)ファンクションを使用して、他の行と一部または全体が重複している行を容易に削除できます。

注: このファンクションはSparkジョブ、およびHDFSやS3のエクスポートとは互換性がありません。

たとえば、コピーアンドペーストの失敗などのヒューマンエラー、さらには自動操作のためにスプレッドシートの情報が重複することがあります。顧客の基本情報が含まれている次のデータセットで、firstnamelastnameの両方のカラムに重複する値が含まれていることがわかります。

JakePeraltafirstnameと思われるエントリーであり、個別に見るとlastnameカラムに重複があります。ただし、よく確かめてみると、行 1、2、4からの情報は、ラストネームまたは名のどちらかを共有する別の顧客に属していることがわかります。他方、行3は行2の正真正銘の重複であり、一部の情報に欠けもあります。

2つのカラムに重複除去オペレーションを別々に実行すると、ラストネームまたはファーストネームがたまたま一致する顧客に関する貴重な情報が失われてしまうため、[Deduplicate rows with identical values] (同じ値を含む行の重複除去)ファンクションを使用して、2つのカラムを同時に処理します。このファンクションにより、ラストネームと名の両方が重複している行(行2と3)だけでなく、データセットの以降の部分に含まれている可能性のある他の重複も削除されます。

手順

  1. Ctrlキーを押したままfirstnameカラムとlastnameカラムのヘッダーをクリックし、カラムのコンテンツを選択します。
  2. ファンクションパネルにConcatenate withと入力し、結果をクリックして関連ファンクションのオプションを表示します。
  3. [Validation criterion] (条件の検証)ドロップダウンリストで、[Exact value] (厳密値)など、適用する制限ルールを選択します。
    • [Simplified text] (簡略化テキスト): 句読点、ホワイトスペース、大文字と小文字の区別、アクセスと記号は無視されます。たとえば、Pâté-en-croûteが参照値の場合、pate-eN-cRouteが含まれた行は削除されますが、Pâté n croûteが含まれた行は削除されません。
    • [Ignore case and accents] (大文字/小文字、アクセントを無視): 大文字と小文字の区別、アクセント記号は無視されます。たとえば、Pâté-en-croûteが参照値の場合、pate-en-crouteが含まれた行は削除されますが、pate en crouteが含まれた行は削除されません。
    • [Exact value] (厳密値): 最も厳密な検証ルール。行が削除されるのは、参照値との完全一致がある場合のみです。
  4. [Submit] (送信)をクリックします。

タスクの結果

行2の重複だった行は削除されましたが、同じ値を含む他の行は、2つのカラムの条件に一致しないため、保持されました。