ユーザーインターフェイスを使った、セマンティックタイプの削除 - 2.8

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
2.8
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

Talend Dictionaryサービスでセマンティックタイプを削除し、Talend Data Preparationで認識されたデータタイプのリストから削除できます。

Talend Data Preparationにデフォルトで存在する各種セマンティックタイプは、ユーザーのビジネスには合わないことがあります。たとえば、5桁の数字はアメリカの郵便番号としても解釈されますが、フランス語またはドイツ語としても解釈される可能性があります。これらは同じフォーマットを共有するためです。

仮に、あなたはアメリカの会社に勤務しており、アメリカのクライアントからのデータ(郵便番号など)のみを扱う作業に従事しているとしましょう。ここであなたは認識されたセマンティックタイプのリストにアメリカの郵便番号だけを残したいと考えます。

この例では、データセットのZIPカラムは、少なくとも4つのタイプに一致する可能性があります。

Talend Dictionaryサービスを使用して、5桁の形式に一致する他のセマンティックタイプを削除し、US Postal Codeのみを残します。変更は即座にTalend Data Preparationに移植され、今後、郵便番号はUS Postal Codeセマンティックタイプに対してだけ検証されます。

手順

  1. Talend Data Preparationホームページの左側のパネルで[Semantic Types] (セマンティックタイプ)ビューを開きます。
  2. 既存のセマンティックタイプのリストで[FR Postal Code] (FR郵便番号)を探します。
  3. このセマンティックタイプを削除するには、そのセマンティックタイプにマウスを重ねて、右側に表示されたゴミ箱アイコンをクリックします。
  4. 最後の2つのステップを繰り返して、[FR Insee Code] (FR INSEEコード)と[DE Postal Code] (DE郵便番号)を削除します。

タスクの結果

5桁の数値と互換性のある他のセマンティックタイプを削除しました。今後、新しいデータセットを追加するときには、郵便番号を含んだカラムのセマンティックタイプとしてUS Postal Codeのみが処理されます。

1つ以上のデータセットで使用されているセマンティックタイプを削除する場合、関連するカラムがtextカテゴリーに切り替わります。