新しい正規表現ベースのセマンティックタイプを追加 - 8.0

Talend Data Stewardshipユーザーガイド

Version
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Stewardship
Content
データガバナンス > キャンペーンの管理
データガバナンス > タスクの割り当て
データガバナンス > データモデルの管理
データクオリティとプレパレーション > セマンティックタイプの管理
データクオリティとプレパレーション > タスク管理
管理と監視 > ユーザーの管理
Last publication date
2024-02-22

正規表現に基づくセマンティックタイプをTalend Dictionary Serviceで作成し、Data Stewardshipで認識されたデータ型のリストに追加できます。

Talend Dictionary Serviceでは、現在、すべてのタイプのデータが、事前定義済みのセマンティックタイプの1つと照合され、検証されるわけではありません。たとえば、現在のところイタリアの社会保障番号(codice fiscale)は認識されません。

このタスクについて

仮に、あなたがイタリアの顧客のみを扱っているイタリアの会社に勤務しているとしましょう。この例では、顧客データ(名前、メールアドレス、社会保障番号など)を登録して管理する必要があります。Data Stewardshipでデータモデルを定義する場合、社会保障番号を含むカラムのセマンティックタイプを、イタリア社会保障番号のセマンティックタイプが事前定義されていないtextに設定することが義務付けられます。これは少し残念なことですが、このデータのタイプとの一致のために、より具体的なカテゴリーを作成することになります。この場合は、codice_fiscaleセマンティックタイプです。

この新しいセマンティックタイプをTalend Dictionary Serviceで作成すると、自動的にData Stewardshipで使用可能になり、データを適切なタイプと照合して検証できます。

重要: セキュリティ上の理由から、使用できない正規表現(特に後方参照)があります。詳細は、RE2/J documentationをご覧ください。

手順

  1. [Semantic types] (セマンティックタイプ) > [Add semantic type] (セマンティックタイプを追加)の順に選択します。
  2. 新しいセマンティックタイプの名前と説明を入力します。
  3. [Type] (タイプ)リストからセマンティックタイプを選択します。
  4. [Use for validation] (検証で使用)スイッチを有効なままにしておきます。

    正規表現を使用して、ディクショナリーまたは複合型による検証を行う場合、特定のカラムで正しい値や誤った値を定義するためにこれらのタイプが使用されます。この検証プロセスの結果は、データセットの各カラムのクオリティバーで確認できます。

    いずれにしても、正規表現またはディクショナリーの値を使ってデータを検索すると、参照値および各カラムのセマンティックタイプを定義するデータとの間の一致率が計算されます。

    この例では、スイッチを無効にすると、正規表現はデータの検索のみに使用され、値はいずれも無効と見なされません。

  5. [Content](コンテンツ)リストから、検証するコンテンツのタイプを選択します。
    このオプションは、パフォーマンスを最適化するのに役立ちます。選択したタイプに一致するデータのみが検証されます
    オプション 説明
    任意の文字 完全な文字列が正規表現に対して検証されます
    アルファベット アルファベット文字および数字以外の文字を含む文字列が正規表現に対して検証されます
    数字 数字およびアルファベット以外の文字を含む文字列が正規表現に対して検証されます
  6. [Validation pattern](検証パターン)フィールドに正規表現の構文を入力します。
    この正規表現は、16文字の英数字コードであるイタリアのcodice fiscaleに一致するように設計されています。
  7. [Save and publish] (保存して公開)をクリックして、セマンティックタイプを Talend Dictionary Serviceサーバーに送信し、Data Stewardshipで使用できるようにします。
    [Save as draft] (下書きとして保存)をクリックすると、システム全体に反映することなく新しいタイプがサーバーに保管されます。新しいタイプ名は、公開されていない場合には使用できません。このオプションの使用例を示すために、仮に、新しいプロジェクトの一部としてデプロイする新しいセマンティックタイプが存在するとしましょう。セマンティックタイプを作成して作業を準備し、プロジェクトの稼動前にそれらをドラフトとして保存し、セマンティックタイプを稼動日にのみデプロイできます。
  8. Talend Data Stewardshipに戻り、イタリアの顧客データ用のデータモデルを作成します。
    新しいセマンティックカテゴリーcodice_fiscaleは、セマンティックタイプのリストで使用可能になり、社会保障番号を含むカラムに設定できます。

タスクの結果

Talend Data Stewardshipに顧客データをロードすると、データは、Talend Dictionary Serviceで作成したcodice_fiscaleセマンティックタイプと照合され、検証されます。