ユーザーインターフェイスで既存のセマンティックタイプを更新 - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation

Talend Dictionaryサービスで既存のセマンティックタイプを編集し、Talend Data Preparationでのデータ検証方法に影響を与えることができます。

Talend Data Preparationの事前定義済みセマンティックタイプは標準値に基づいていますが、独自のデータに合わせてセマンティックタイプを調整する必要があります。事前定義済みカテゴリーに入ると思われる一部のデータは、無効と見なされる可能性があります。

ここで、メールアドレス、生年月日、居住国を示す顧客リストが含まれているデータセットの例を見てみましょう。Americaのエントリーがすべて無効と見なされていることがわかります。これは有効な国名ではありませんが、自分の会社で使用されているので有効な値としたいと考えています。

ここで問題となるのは、Americaは、Talend Data Preparationcountryセマンティックタイプで期待されている値の1つではないということです。この場合に有効なエントリーは、United StatesUnited States of Americaのいずれかです。

今後この問題を回避できるよう、Talend Dictionaryサービスcountryセマンティックタイプを更新し、有効なエントリーのリストにAmericaを追加します。この変更は、Talend Data Preparationで自動的に使用可能になります。

手順

  1. Talend Data Preparationホームページの左側パネルの[Semantic types] (セマンティックタイプ)ビューを開きます。
  2. 既存のセマンティックタイプのリストで[Country] (国)タイプをクリックして開きます。
    このウィンドウでは、データの検索や検証に使用するエントリーのリストなど、あらゆるセマンティックタイプのパラメーターを編集できます。
  3. [Values] (値)リストで、[United States] (米国)エントリーにマウスを重ねて、右側に表示されたペンアイコンをクリックします。
  4. United Statesの直後に、新しい値としてAmericaをコンマで区切って入力します。
  5. チェックアイコンをクリックして変更を検証します。

    コンマで区切られ、同じ行にあるこの値はすべて同義語として設定されます。これにより、Americacountryセマンティックタイプの有効な値と見なされるようになります。

  6. [Save and publish] (保存して公開)をクリックし、Talend Dictionaryサービスで変更を伝播して、Talend Data Preparationユーザーが使用できるようにします。

    セマンティックタイプの変更は、新しいデータセットをインポートするたびに、Talend Data Preparationに即座に反映されます。既存のデータセットの場合、カラムを複製するか、データセットを再インポートする必要があります。

  7. 顧客の国を含んだカラムのデータセットに戻ります。
  8. 適用された更新済みのセマンティックタイプのカラムを複製します。この場合は、Country (国)です。

    カラムヘッダーの下のクオリティバーを確認すると、無効な値がなくなっています。

タスクの結果

countryセマンティックタイプは、新しい値をサポートするように手動で更新されています。

今後、countryセマンティックタイプに一致するデータを処理する場合は、Americaも有効な値と見なされます。