新しい辞書ベースのセマンティックタイプの追加 - 7.2

Talend Data Stewardshipユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データガバナンス > キャンペーンの管理
データガバナンス > タスクの割り当て
データガバナンス > データモデルの管理
データクオリティとプレパレーション > セマンティックタイプの管理
データクオリティとプレパレーション > タスク管理
管理と監視 > ユーザーの管理
EnrichPlatform
Talend Data Stewardship

辞書に基づくセマンティックタイプをTalend Dictionaryサービスで作成し、Talend Data Stewardshipで認識されたデータタイプのリストに追加できます。ただし、重複した値は辞書ベースのセマンティックタイプでは許可されません。そのような値は無用であり、プロセスを遅延させる可能性があるためです。

Talend Data Stewardshipでは現在、すべてのデータタイプがいずれかの事前定義済みセマンティックタイプに一致すると​は限りません。たとえば、英国の郡は現在そのような形で認識されません。

このタスクについて

仮に、あなたが英国に居住している顧客のみを扱っている英国の会社に勤務しているとしましょう。この例では、顧客データ(名前、メールアドレス、顧客が住んでいる郡など)を登録して管理する必要があります。Data Stewardshipでデータモデルを定義する際に、郡を含むカラムに使用するセマンティックタイプが必要です。ここでは、データに固有のセマンティックタイプ(この場合はUK_countiesセマンティックタイプ)を追加します。

この新しいセマンティックタイプをTalend Dictionaryサービスで作成すると、自動的にData Stewardshipで使用可能になり、データを適切なタイプと照合して検証できます。

手順

  1. 英国の郡をリストするテキストファイルを作成します。
    ファイルでは、1行あたり1つまたは複数の値を示すことができます。値の最大長は255文字です。

    同じ行で複数の値を使用する場合は、カンマで区切ります。その場合、すべての値はシノニムと見なされます。アルファベット以外の値は引用符で囲む必要があります。そうしないとファイルは拒否されます。

  2. [SEMANTIC TYPES] (セマンティックタイプ) > [ADD SEMANTIC TYPE] (セマンティックタイプの追加)の順に選択します。
  3. 新しいセマンティックタイプの名前と説明を入力します。
  4. [Type] (タイプ)リストからセマンティックタイプを選択します。
  5. [Use for validation] (検証で使用)スイッチを有効なままにしておきます。

    正規表現を使用して、辞書または複合タイプによる検証を行う場合、特定のカラムで正しい値や誤った値を定義するためにこれらのタイプが使用されます。この検証プロセスの結果は、データセットの各カラムのクオリティバーで確認できます。

    いずれにしても、正規表現または辞書の値を使ってデータを検索すると、参照値および各カラムのセマンティックタイプを定義するデータとの間のマッチ率が計算されます。

    この例では、スイッチを無効にすると、辞書はデータの検索のみに使用され、値はいずれも無効と見なされません。

  6. [Validation criterion](検証基準)リストから、データを辞書の値と照合する際に使用するルールを選択します。
    オプション 説明
    簡略化されたテキスト 検証中は句読点、空白、大文字小文字アクセントは無視され、データは有効と見なされます。たとえば、Pâté-en-croûteが辞書の参照値である場合、pate-en-croutePATE--EN CROUTEは両方とも有効と見なされますが、Pâté n croûteは有効と見なされません。
    大文字小文字アクセントを無視 検証中は大文字小文字アクセントは無視され、データは有効と見なされます。たとえば、Pâté-en-croûteが辞書の参照値である場合、pate-en-crouteは(大文字小文字アクセントにかかわらず)有効と見なされますが、pate en crouteはダッシュがスペースで置き換えられているため有効と見なされません。
    正確な値 非常に制限的。データは、値と完全に一致する場合にのみ、有効と見なされます。
  7. [Values](値)の右側にあるアイコンをクリックし、英国の郡のテキストファイルをインポートします。
    アイコンを使用して、手動で値を追加し、検索アイコンを使用してリスト内の値を検索できます。
  8. [SAVE AND PUBLISH] (保存してパブリッシュ)をクリックして、セマンティックタイプを Talend Dictionaryサービスサーバーに送信し、Data Stewardshipで使用できるようにします。
    [SAVE AS DRAFT] (下書きとして保存)をクリックすると、システム全体に反映することなく新しいタイプがサーバーに保管されます。新しいタイプ名は、パブリッシュされていない場合には使用できません。このオプションの使用例を示すために、仮に、新しいプロジェクトの一部としてデプロイする新しいセマンティックタイプが存在するとしましょう。セマンティックタイプを作成して作業を準備し、プロジェクトの稼動前にそれらをドラフトとして保存し、セマンティックタイプを稼動日にのみデプロイできます。
  9. [DATA MODELS] (データモデル)ページで、英国の顧客データのデータモデルを作成します。
    これでUK_countiesをセマンティックタイプのリストで使用可能になります。[County] (国)カラムにそれを設定できます。

タスクの結果

Talend Data Stewardshipに英国の郡を含むデータをロードすると、データは、Talend Dictionaryサービスで手動により作成したセマンティックタイプUK_countiesと照合され、検証されます。