新しいディクショナリーベースのセマンティックタイプを追加 - Cloud

Talend Cloud Data Stewardshipユーザーガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Stewardship
Content
データガバナンス > キャンペーンの管理
データガバナンス > タスクの割り当て
データガバナンス > データモデルの管理
データクオリティとプレパレーション > タスク管理
管理と監視 > ユーザーの管理
Last publication date
2024-01-30

ディクショナリーに基づくセマンティックタイプをTalend Dictionary Serviceで作成し、Talend Cloud Data Stewardshipで認識されたデータ型のリストに追加できます。ただし、重複した値はディクショナリーベースのセマンティックタイプでは許可されません。そのような値は無用であり、プロセスを遅延させる可能性があるためです。

Talend Cloud Data Stewardshipでは現在、すべてのデータ型がいずれかの事前定義済みセマンティックタイプに一致するとは限りません。たとえば、英国の郡は現在そのような形で認識されません。

このタスクについて

仮に、あなたが英国に居住している顧客のみを扱っている英国の会社に勤務しているとしましょう。この例では、顧客データ(名前、メールアドレス、顧客が住んでいる郡など)を登録して管理する必要があります。Data Stewardshipでデータモデルを定義する際に、郡を含むカラムに使用するセマンティックタイプが必要です。ここでは、データに固有のセマンティックタイプ(この場合はUK_countiesセマンティックタイプ)を追加します。

この新しいセマンティックタイプをTalend Dictionary Serviceで作成すると、自動的にData Stewardshipで使用可能になり、データを適切なタイプと照合して検証できます。

手順

  1. 英国の郡をリストするテキストファイルを作成します。
    ファイルでは、1行あたり1つまたは複数の値を示すことができます。値の最大長は255文字です。

    同じ行で複数の値を使用する場合は、コンマで区切ります。その場合、すべての値はシノニムと見なされます。アルファベット以外の値は引用符で囲む必要があります。そうしないとファイルはリジェクトされます。

  2. [Semantic types] (セマンティックタイプ) > [Add semantic type] (セマンティックタイプを追加)の順に選択します。
  3. 新しいセマンティックタイプの名前と説明を入力します。
  4. [Type] (タイプ)リストからセマンティックタイプを選択します。
  5. [Use for validation] (検証で使用)スイッチを有効なままにしておきます。

    正規表現を使用して、ディクショナリーまたは複合型による検証を行う場合、特定のカラムで正しい値や誤った値を定義するためにこれらのタイプが使用されます。この検証プロセスの結果は、データセットの各カラムのクオリティバーで確認できます。

    いずれにしても、正規表現またはディクショナリーの値を使ってデータを検索すると、参照値および各カラムのセマンティックタイプを定義するデータとの間の一致率が計算されます。

    この例では、スイッチを無効にすると、ディクショナリーはデータの検索のみに使用され、値はいずれも無効と見なされません。

  6. [Validation criterion](検証基準)リストから、データをディクショナリーの値と照合する際に使用するルールを選択します。
    オプション 説明
    簡略化されたテキスト 検証中は句読点、空白、大文字小文字アクセントは無視され、データは有効と見なされます。たとえば、Pâté-en-croûteがディクショナリーの参照値である場合、pate-en-croutePATE--EN CROUTEは両方とも有効と見なされますが、Pâté n croûteは有効と見なされません。
    大文字/小文字、アクセントを無視 検証中は大文字小文字アクセントは無視され、データは有効と見なされます。たとえば、Pâté-en-croûteがディクショナリーの参照値である場合、pate-en-crouteは(大文字小文字アクセントにかかわらず)有効と見なされますが、pate en crouteはダッシュがスペースで置き換えられているため有効と見なされません。
    厳密値 非常に制限的。データは、値と完全に一致する場合にのみ、有効と見なされます。
  7. [Values] (値)の右側にある[Import values from a file] (ファイルから値をインポート)をクリックし、英国の郡のテキストファイルをインポートします。
    [Add item] (項目を追加)をクリックすれば手動で値を追加でき、検索アイコンをクリックすればリスト内の値を検索できます。
    注: テナントごとに10MBまでのコンテンツをTalend Dictionary Serviceにアップロードできます。
    新しいディクショナリー型セマンティックタイプを追加するための設定
  8. [Save and publish] (保存して公開)をクリックして、セマンティックタイプを Talend Dictionary Serviceサーバーに送信し、Data Stewardshipで使用できるようにします。
    [Save as draft] (下書きとして保存)をクリックすると、システム全体に反映することなく新しいタイプがサーバーに保管されます。新しいタイプ名は、公開されていない場合には使用できません。このオプションの使用例を示すために、仮に、新しいプロジェクトの一部としてデプロイする新しいセマンティックタイプが存在するとしましょう。セマンティックタイプを作成して作業を準備し、プロジェクトの稼動前にそれらをドラフトとして保存し、セマンティックタイプを稼動日にのみデプロイできます。
  9. [Data models] (データモデル)ページで、英国の顧客データのデータモデルを作成します。
    タイプフィールドのロケーション。
    これでUK_countiesをセマンティックタイプのリストで使用可能になります。[County] (国)カラムにそれを設定できます。

タスクの結果

Talend Cloud Data Stewardshipに英国の郡を含むデータをロードすると、データは、Talend Dictionary Serviceで手動により作成したセマンティックタイプUK_countiesと照合され、検証されます。