メイン コンテンツをスキップする 補完的コンテンツへスキップ

新しい正規表現ベースのセマンティックタイプを追加

正規表現に基づくセマンティックタイプをTalend Dictionary Serviceで作成し、Data Stewardshipで認識されたデータ型のリストに追加できます。

Talend Dictionary Serviceでは、現在、すべてのタイプのデータが、事前定義済みのセマンティックタイプの1つと照合され、検証されるわけではありません。たとえば、現在のところイタリアの社会保障番号(codice fiscale)は認識されません。

このタスクについて

仮に、あなたがイタリアの顧客のみを扱っているイタリアの会社に勤務しているとしましょう。この例では、顧客データ(名前、メールアドレス、社会保障番号など)を登録して管理する必要があります。Data Stewardshipでデータモデルを定義する場合、社会保障番号を含むカラムのセマンティックタイプを、イタリア社会保障番号のセマンティックタイプが事前定義されていないtextに設定することが義務付けられます。これは少し残念なことですが、このデータのタイプとの一致のために、より具体的なカテゴリーを作成することになります。この場合は、codice_fiscaleセマンティックタイプです。

この新しいセマンティックタイプをTalend Dictionary Serviceで作成すると、自動的にData Stewardshipで使用可能になり、データを適切なタイプと照合して検証できます。

情報メモ重要: セキュリティ上の理由から、使用できない正規表現(特に後方参照)があります。詳細は、RE2/J documentationをご覧ください。

手順

  1. [Semantic types] (セマンティックタイプ) > [Add semantic type] (セマンティックタイプを追加)の順に選択します。
  2. 新しいセマンティックタイプの名前と説明を入力します。
  3. [Type] (タイプ)リストからセマンティックタイプを選択します。
  4. [Use for validation] (検証で使用)スイッチを有効なままにしておきます。

    正規表現を使用して、ディクショナリーまたは複合型による検証を行う場合、特定のカラムで正しい値や誤った値を定義するためにこれらのタイプが使用されます。この検証プロセスの結果は、データセットの各カラムのクオリティバーで確認できます。

    いずれにしても、正規表現またはディクショナリーの値を使ってデータを検索すると、参照値および各カラムのセマンティックタイプを定義するデータとの間の一致率が計算されます。

    この例では、スイッチを無効にすると、正規表現はデータの検索のみに使用され、値はいずれも無効と見なされません。

  5. [Content](コンテンツ)リストから、検証するコンテンツのタイプを選択します。
    このオプションは、パフォーマンスを最適化するのに役立ちます。選択したタイプに一致するデータのみが検証されます
    オプション 説明
    任意の文字 完全な文字列が正規表現に対して検証されます
    アルファベット アルファベット文字および数字以外の文字を含む文字列が正規表現に対して検証されます
    数字 数字およびアルファベット以外の文字を含む文字列が正規表現に対して検証されます
  6. [Validation pattern](検証パターン)フィールドに正規表現の構文を入力します。
    この正規表現は、16文字の英数字コードであるイタリアのcodice fiscaleに一致するようデザインされています。
    新しい正規表現型セマンティックタイプを追加するための設定。
  7. [Save and publish] (保存して公開)をクリックして、セマンティックタイプを Talend Dictionary Serviceサーバーに送信し、Data Stewardshipで使用できるようにします。
    [Save as draft] (下書きとして保存)をクリックすると、システム全体に反映することなく新しいタイプがサーバーに保管されます。新しいタイプ名は、公開されていない場合には使用できません。このオプションの使用例を示すために、仮に、新しいプロジェクトの一部としてデプロイする新しいセマンティックタイプが存在するとしましょう。セマンティックタイプを作成して作業を準備し、プロジェクトの稼動前にそれらをドラフトとして保存し、セマンティックタイプを稼動日にのみデプロイできます。
  8. Talend Cloud Data Stewardshipに戻り、イタリアの顧客データ用のデータモデルを作成します。
    新しいセマンティックカテゴリーcodice_fiscaleは、セマンティックタイプのリストで使用可能になり、社会保障番号を含むカラムに設定できます。

タスクの結果

Talend Cloud Data Stewardshipに顧客データをロードすると、データは、Talend Dictionary Serviceで作成したcodice_fiscaleセマンティックタイプと照合され、検証されます。
codeice fiscaleセマンティックタイプに一致するデータ。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。