新しい複合セマンティックタイプを追加 - Cloud

Talend Cloud Data Inventoryユーザーガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Inventory
Content
データガバナンス
データクオリティとプレパレーション > データの充実化
データクオリティとプレパレーション > データの識別
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
Last publication date
2024-02-28

複合セマンティックを作成して、Talend Dictionary Serviceサーバーに公開された他のセマンティックタイプをグルーピングし、認識されたデータ型のリストに追加できます。

複合型を作成する際にはすべてのセマンティックタイプを混在させることが可能です。複合セマンティックタイプは、すべての子タイプが既に公開されているという条件で他の複合型を参照できます。

この例では、米国、英国、ドイツ、フランスの顧客に関する情報を含んだファイルを準備する必要があります。このデータセットのいずれかのカラムにこれらの国の郵便番号が含まれていますが、当然ながらその形式はさまざまです。アプリケーションはこの場合、そのカラムで値に最も一致するセマンティックタイプ(たとえばUS Postal code)を採用します。そのため、残りのデータであるドイツ、フランス、英国の郵便番号は無効と見なされます。

この状況にアプリケーションをさらに適応させるため、複合型を作成し、郵便番号の検証に使う複数のセマンティックタイプを再グルーピングします。

始める前に

複合型としてグルーピングするセマンティックタイプがすべて公開されます。

手順

  1. ホームページの左パネルで[Semantic type] (セマンティックタイプ)ビューを開きます。
  2. [Add semantic type] (セマンティックタイプを追加)ボタンをクリックします。
  3. [Name] (名前)フィールドにPostal codeと入力します。
  4. [Description] (説明)フィールドにAmerican, British, German and French postal codesと入力します。
  5. [Type] (タイプ)ドロップダウンリストで[Compound type] (複合型)を選択します。
  6. [Use for validation] (検証で使用)スイッチを有効なままにしておきます。

    この複合型は、特定のカラムに適用する時に正しい値や誤った値を定義するために使われます。この検証プロセスの結果は、データセットの各カラムのクオリティバーで確認できます。

    この例では、スイッチを無効にすると複合型はデータの検索のみに使われ、どの値も無効とは見なされません。

  7. [Children types] (子タイプ)ドロップダウンリストで、このPostal code複合型にグルーピングするセマンティックタイプを選択します。
    新しい複合型によるセマンティックタイプの選択。
  8. [Save and publish] (保存して公開)をクリックして新しい複合型をTalend Dictionary Serviceサーバーに送信し、Talend Cloud Data Inventoryユーザーが使用できるようにします。

    [Save as draft] (下書きとして保存)をクリックすると、セマンティックタイプはTalend Dictionary Serviceに保存されますが、Talend Cloudアプリケーションにはブロードキャストされません。そのため、セマンティックタイプの公開時期を選ぶことができます。

    Postal codeタイプは、ステータスが[Published] (公開済み)になっているセマンティックタイプのリストで使用可能になります。

    セマンティックタイプの変更は、新しいデータセットを作成するたびにTalend Cloud Data Inventoryへ即座に反映されます。既存のデータセットの場合は、最も適切な新しいカテゴリーでクオリティを再計算できるようサンプルを更新する必要があります。

  9. 複数の国の郵便番号が含まれているデータセットに戻ります。
  10. [Refresh sample] (サンプルを更新)ボタンをクリックします。
    データセットの概要での[更新]ボタンの場所。

タスクの結果

これでデータは、Talend Dictionary Serviceで手動で作成した郵便番号複合型と一致するようになります。今後、郵便番号を含んだ新しいデータセットをインポートすると、適切なタイプと自動的に一致するようになります。