新しい正規表現ベースのセマンティックタイプの追加 - Cloud

Talend Cloud Data Inventoryユーザーガイド

EnrichVersion
Cloud
EnrichProdName
Talend Cloud
EnrichPlatform
Talend Data Inventory
task
データガバナンス
データクオリティとプレパレーション > データの充実化
データクオリティとプレパレーション > データの識別
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理

正規表現に基づくセマンティックタイプをTalend Dictionary Serviceで作成し、認識されたデータタイプのリストに追加できます。

このアプリケーションでは現在、すべてのデータタイプがいずれかの事前定義済みセマンティックタイプに一致するとは限りません。たとえば、現在のところイタリアの社会保障番号(codice fiscale)は認識されません。

ここで、あなたはイタリアの顧客のみを扱っているイタリアの会社に勤務しているとしましょう。この例では、顧客データ(名前、メールアドレス、社会保障番号など)が含まれているデータセットが既に作成されています。社会保障番号を含んでいるカラムのセマンティックタイプはtextによってデフォルト値に設定されます。これでは不十分であり、このデータのタイプが一致するよう新しいカテゴリーを作成する必要があります。この場合はcodice fiscaleセマンティックタイプです。

Talend Dictionary Serviceでこの新しいセマンティックタイプを作成すると、自分のデータセットで自動的に使用可能になり、データを適切なタイプと一致させることができます。

重要: セキュリティ上の理由から、使用できない正規表現(特に後方参照)があります。詳細は、RE2/J documentationを参照してください。

手順

  1. ホームページの左パネルで[Semantic type] (セマンティックタイプ)ビューを開きます。
  2. [Add semantic type] (セマンティックタイプの追加)ボタンをクリックします。
  3. [Name] (名前)フィールドにcodice fiscaleと入力します。
  4. [Description] (説明)フィールドにItalian social security numberと入力します。
  5. [Type] (タイプ)ドロップダウンで[Regular expression] (正規表現)を選択します。
  6. [Use for validation] (検証で使用)スイッチを有効なままにしておきます。

    正規表現を使用して、辞書または複合タイプによる検証を行う場合、特定のカラムで正しい値や誤った値を定義するためにこれらのタイプが使用されます。この検証プロセスの結果は、データセットの各カラムのクオリティバーで確認できます。

    いずれにしても、正規表現または辞書の値を使ってデータを検索すると、参照値および各カラムのセマンティックタイプを定義するデータとの間のマッチ率が計算されます。

    この例では、スイッチを無効にすると、正規表現はデータの検索のみに使用され、値はいずれも無効と見なされません。

  7. [Content] (コンテンツ)ドロップダウンリストで、検証する内容のタイプを選択します。この場合は、[Any character] (任意の文字)です。
    このオプションでパフォーマンスが最適化されます。選択したタイプに一致するデータのみが検証されます。正規表現に対してアルファベット値または数値だけが検証されるよう選択することもできますが、イタリアの社会保障番号にはその両方が含まれているので、[Any character] (任意の文字)を選択する必要があります。
  8. [Validation pattern] (検証パターン)フィールドに^[A-Z]{6}[0-9]{2}[A-Z][0-9]{2}[A-Z][0-9]{3}[A-Z]$と入力します。
    この正規表現は、16文字の英数字コードであるイタリアのcodice fiscaleに一致するよう設計されています。このパターンに一致するデータはcodice fiscaleとして識別されます。
  9. [Save and publish] (保存して公開)をクリックして新しいセマンティックタイプをTalend Dictionary Serviceサーバーに送信し、Talend Cloud Data Inventoryユーザーが使用できるようにします。

    [Save as draft] (下書きの保存)をクリックすると、セマンティックタイプはTalend Dictionary Serviceに保存されますが、Talend Cloudアプリケーションにはブロードキャストされません。そのため、セマンティックタイプの公開時期を選ぶことができます。

    codice fiscaleタイプは、ステータスが公開済みになっているセマンティックタイプのリストで使用可能になります。

    セマンティックタイプの変更は、新しいデータセットを作成するたびにTalend Cloud Data Inventoryへ即座に反映されます。既存のデータセットの場合は、新しいカテゴリーでクオリティを再計算できるようにサンプルを更新する必要があります。

  10. イタリアの社会保障番号が含まれているデータセットに戻ります。
  11. [Refresh sample] (サンプルを更新)ボタンをクリックします。

タスクの結果

これでデータは、Talend Dictionary Serviceで手動で作成したcodice_fiscaleセマンティックタイプと一致するようになります。

今後、イタリアの社会保障番号を含んだ新しいデータセットをインポートすると、適切なタイプと自動的に一致するようになります。