ユーザーインターフェースを使った、セマンティックタイプの削除 - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation

Talend Dictionaryサービスでセマンティックタイプを削除し、Talend Data Preparationで認識されたデータタイプのリストから削除できます。

Talend Data Preparationにデフォルトで存在する各種セマンティックタイプは、ユーザーのビジネスには合わないことがあります。たとえば、5桁の数字はアメリカの郵便番号としても解釈されますが、フランス語またはドイツ語としても解釈される可能性があります。これらは同じフォーマットを共有するためです。

仮に、あなたはアメリカの会社に勤務しており、アメリカのクライアントからのデータ(郵便番号など)のみを扱う作業に従事しているとしましょう。ここであなたは認識されたセマンティックタイプのリストにアメリカの郵便番号だけを残したいと考えます。

このサンプルでは、データセットのZIPカラムは、少なくとも4つのタイプに一致する可能性があります。

Talend Dictionaryサービスを使用して、5桁の形式に一致する他のセマンティックタイプを削除し、US Postal Codeのみを残します。変更は即座にTalend Data Preparationに移植され、今後、郵便番号はUS Postal Codeセマンティックタイプに対してだけ検証されます。

手順

  1. Talend Data Preparationホームページの左側のパネルで[Semantic Types] (セマンティックタイプ)ビューを開きます。
  2. 既存のセマンティックタイプのリストで[FR Postal Code] (FR郵便番号)を探します。
  3. このセマンティックタイプを削除するには、そのセマンティックタイプにマウスを重ねて、右側に表示されたゴミ箱アイコンをクリックします。
  4. 最後の2つのステップを繰り返して、[FR Insee Code] (FR INSEEコード)[DE Postal Code] (DE郵便番号)を削除します。

タスクの結果

5桁の数値と互換性のある他のセマンティックタイプを削除しました。今後、新しいデータセットを追加するときには、郵便番号を含んだカラムのセマンティックタイプとしてUS Postal Codeのみが処理されます。

1つ以上のデータセットで使用されているセマンティックタイプを削除する場合、関連するカラムがtextカテゴリに切り替わります。