既存のセマンティックタイプをアップデート - 7.3

Talend Data Preparationユーザーガイド

Version
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
Last publication date
2023-11-29

Talend Dictionary Serviceで既存のセマンティックタイプを編集し、Talend Data Preparationでのデータ検証方法に影響を与えることができます。

Talend Data Preparationの事前定義済みセマンティックタイプは標準値に基づいていますが、独自のデータに合わせてセマンティックタイプを調整する必要があります。事前定義済みカテゴリーに入ると思われる一部のデータは、無効と見なされる可能性があります。

ここで、メールアドレス、生年月日、居住国を示す顧客リストが含まれているデータセットの例に注目してみましょう。Americaのエントリーがすべて無効と見なされていることがわかります。これは有効な国名ではありませんが、自分の会社で使用されているので有効な値としたいと考えています。

ここで問題となるのは、Americaは、Talend Data Preparationcountryセマンティックタイプで期待されている値の1つではないという点です。この場合に有効なエントリーは、United StatesUnited States of Americaのいずれかです。

今後この問題を回避できるよう、Talend Dictionary Servicecountryセマンティックタイプをアップデートし、有効なエントリーのリストにAmericaを追加します。この変更は、Talend Data Preparationで自動的に使用可能になります。

手順

  1. Talend Data Preparationホームページの左パネルの[Semantic types] (セマンティックタイプ)ビューを開きます。
  2. 既存のセマンティックタイプのリストで[Country] (国)タイプをクリックして開きます。
    このウィンドウでは、データの検索や検証に使用するエントリーのリストなど、あらゆるセマンティックタイプのパラメーターを編集できます。
  3. [Values] (値)リストで、[United States] (米国)エントリーにマウスを重ねて、右側に表示されたペンアイコンをクリックします。
  4. United Statesの直後に、新しい値としてAmericaをコンマで区切って入力します。
  5. チェックアイコンをクリックして変更を検証します。

    コンマで区切られ、同じ行にあるこの値はすべてシノニムとして設定されます。これにより、Americacountryセマンティックタイプの有効な値と見なされるようになります。

  6. [Save and publish] (保存して公開)をクリックし、Talend Dictionary Serviceで変更をプロパゲートして、Talend Data Preparationユーザーが使用できるようにします。

    セマンティックタイプの変更は、新しいデータセットをインポートするたびにTalend Data Preparationに即座に反映されます。既存のデータセットの場合、カラムを複製するか、データセットを再インポートする必要があります。

  7. 顧客の国を含んだカラムのデータセットに戻ります。
  8. 適用されたアップデート済みのセマンティックタイプのカラムを複製します。この場合は、Countryです。

    カラムヘッダーの下のクオリティバーを確認すると、無効な値がなくなっています。

タスクの結果

countryセマンティックタイプは、新しい値をサポートするように手動でアップデートされています。

今後、countryセマンティックタイプに一致するデータを処理する場合は、Americaも有効な値と見なされます。