ユーザーインターフェイスを使った、既存のセマンティックタイプの更新 - 2.5

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
2.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

Talend Dictionary Serviceで既存のセマンティックタイプを編集し、Talend Data Preparationでのデータ検証方法に影響を与えることができます。

Talend Data Preparationの事前定義済みセマンティックタイプは標準値に基づいていますが、独自のデータに合わせてセマンティックタイプを調整する必要があります。事前定義済みカテゴリーに入ると思われる一部のデータは、無効とみなされる可能性があります。

ここで、メールアドレス、生年月日、居住国を示す顧客リストを含むデータセットの例を見てみましょう。United States of America(アメリカ合衆国)のすべてのエントリーは無効であるとみなされます。その名前は正式名称であるため本来は無効であってはなりません。

ここで問題となるのは、United States of America(アメリカ合衆国)は、Talend Data Preparationcountryセマンティックタイプの期待値の1つではないということです。このケースでの有効なエントリーはUnited States(米国)です。

今後この問題の発生を回避するために、Talend Dictionary Servicecountryセマンティックタイプを更新し、有効なエントリーのリストに[United States of America] (アメリカ合衆国)を追加します。この変更は、Talend Data Preparationで自動的に使用可能になります。

手順

  1. Talend Data Preparationホームページの左側パネルの[Semantic types] (セマンティックタイプ)ビューを開きます。
  2. 既存のセマンティックタイプのリストで[Country] (国)タイプをクリックして開きます。
    このウィンドウでは、データの検索や検証に使用するエントリーのリストなど、あらゆるセマンティックタイプのパラメーターを編集できます。
  3. [Values] (値)リストで、[United States] (米国)エントリーにマウスを重ねて、右側に表示されたペンアイコンをクリックします。
  4. [United States] (米国)のすぐ後に続いて、2つ目の値として「United States of America (アメリカ合衆国)」と、コンマで区切って入力します。
  5. チェックアイコンをクリックして変更を検証します。

    同じ行に入力されたこれらの2つの値がシノニムとして設定されています。その結果、[United States of America] (アメリカ合衆国)countryセマンティックタイプの有効な値を見なされます。

  6. [Save and publish] (保存してパブリッシュ)をクリックして、Talend Dictionary Serviceで変更を伝播し、Talend Data Preparationユーザーが使用できるようにします。

    セマンティックタイプの変更は、新しいデータセットをインポートするたびに、Talend Data Preparationに即座に反映されます。既存のデータセットの場合、カラムを複製するか、データセットを再インポートする必要があります。

  7. 顧客の国を含んだカラムのデータセットに戻ります。
  8. 適用された更新済みのセマンティックタイプのカラムを複製します。この場合は、Country (国)です。

    カラムヘッダーの下のクオリティバーを確認すると、無効な値がなくなっています。

タスクの結果

countryセマンティックタイプは、新しい値をサポートするように手動で更新されています。

以降、countryセマンティックタイプと照合されるデータを扱う際には、United States of America(アメリカ合衆国)は有効な値とみなされます。