新しい正規表現ベースのセマンティックタイプの追加 - 7.2

Talend Data Stewardshipユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データガバナンス > キャンペーンの管理
データガバナンス > タスクの割り当て
データガバナンス > データモデルの管理
データクオリティとプレパレーション > セマンティックタイプの管理
データクオリティとプレパレーション > タスク管理
管理と監視 > ユーザーの管理
EnrichPlatform
Talend Data Stewardship

正規表現に基づくセマンティックタイプをTalend Dictionaryサービスで作成し、Data Stewardshipで認識されたデータタイプのリストに追加できます。

Talend Dictionaryサービスでは、現在、すべてのタイプのデータが、事前定義済みのセマンティックタイプの1つと照合され、検証されるわけではありません。たとえば、現在のところイタリアの社会保障番号(codice fiscale)は認識されません。

このタスクについて

仮に、あなたがイタリアの顧客のみを扱っているイタリアの会社に勤務しているとしましょう。この例では、顧客データ(名前、メールアドレス、社会保障番号など)を登録して管理する必要があります。Data Stewardshipでデータモデルを定義する場合、社会保障番号を含むカラムのセマンティックタイプを、イタリア社会保障番号のセマンティックタイプが事前定義されていないtextに設定することが義務付けられます。これは少し残念なことですが、このデータのタイプとの一致のために、より具体的なカテゴリを作成することになります。この場合は、codice_fiscaleセマンティックタイプです。

この新しいセマンティックタイプをTalend Dictionaryサービスで作成すると、自動的にData Stewardshipで使用可能になり、データを適切なタイプと照合して検証できます。

手順

  1. [SEMANTIC TYPES] (セマンティックタイプ) > [ADD SEMANTIC TYPE] (セマンティックタイプの追加)の順に選択します。
  2. 新しいセマンティックタイプの名前と説明を入力します。
  3. [Type] (タイプ)リストからセマンティックタイプを選択します。
  4. [Use for validation] (検証で使用)スイッチを有効なままにしておきます。

    正規表現を使用して、辞書または複合タイプによる検証を行う場合、特定のカラムで正しい値や誤った値を定義するためにこれらのタイプが使用されます。この検証プロセスの結果は、データセットの各カラムのクオリティバーで確認できます。

    いずれにしても、正規表現または辞書の値を使ってデータを検索すると、参照値および各カラムのセマンティックタイプを定義するデータとの間のマッチ率が計算されます。

    この例では、スイッチを無効にすると、正規表現はデータの検索のみに使用され、値はいずれも無効と見なされません。

  5. [Content](コンテンツ)リストから、検証するコンテンツのタイプを選択します。
    このオプションは、パフォーマンスを最適化するのに役立ちます。選択したタイプに一致するデータのみが検証されます
    オプション 説明
    任意の文字 完全な文字列が正規表現に対して検証されます
    アルファベット アルファベット文字および数字以外の文字を含む文字列が正規表現に対して検証されます
    数字 数字およびアルファベット以外の文字を含む文字列が正規表現に対して検証されます
  6. [Validation pattern](検証パターン)フィールドに正規表現の構文を入力します。
    この正規表現は、16文字の英数字コードであるイタリアのcodice fiscaleに一致するように設計されています。
  7. [SAVE AND PUBLISH] (保存してパブリッシュ)をクリックして、セマンティックタイプを Talend Dictionaryサービスサーバーに送信し、Data Stewardshipで使用できるようにします。
    [SAVE AS DRAFT] (下書きとして保存)をクリックすると、システム全体に反映することなく新しいタイプがサーバーに保管されます。新しいタイプ名は、パブリッシュされていない場合には使用できません。このオプションの使用例を示すために、仮に、新しいプロジェクトの一部としてデプロイする新しいセマンティックタイプが存在するとしましょう。セマンティックタイプを作成して作業を準備し、プロジェクトの稼動前にそれらをドラフトとして保存し、セマンティックタイプを稼動日にのみデプロイできます。
  8. Talend Data Stewardshipに戻り、イタリアの顧客データ用のデータモデルを作成します。
    新しいセマンティックカテゴリcodice_fiscaleは、セマンティックタイプのリストで使用可能になり、社会保障番号を含むカラムに設定できます。

タスクの結果

Talend Data Stewardshipに顧客データをロードすると、データは、Talend Dictionaryサービスで作成したcodice_fiscaleセマンティックタイプと照合され、検証されます。