正規表現に基づくセマンティックタイプをTalend Dictionary Serviceで作成し、認識されたデータ型のリストに追加できます。
このアプリケーションでは現在、すべてのデータ型がいずれかの事前定義済みセマンティックタイプに一致するとは限りません。たとえば、現在のところイタリアの社会保障番号(codice fiscale)は認識されません。
ここで、あなたはイタリアの顧客のみを扱っているイタリアの会社に勤務しているとしましょう。この例では、顧客データ(名前、メールアドレス、社会保障番号など)が含まれているデータセットが既に作成されています。社会保障番号を含んでいるカラムのセマンティックタイプはtext
によってデフォルト値に設定されます。これでは不十分であり、このデータのタイプが一致するよう新しいカテゴリーを作成する必要があります。この場合はcodice fiscale
セマンティックタイプです。
Talend Dictionary Serviceでこの新しいセマンティックタイプを作成すると、自分のデータセットで自動的に使用可能になり、データを適切なタイプと一致させることができます。
手順
-
ホームページの左パネルで[Semantic type] (セマンティックタイプ)ビューを開きます。
-
[Add semantic type] (セマンティックタイプを追加)ボタンをクリックします。
-
[Name] (名前)フィールドに
codice fiscale
と入力します。
-
[Description] (説明)フィールドに
Italian social security number
と入力します。
-
[Type] (タイプ)ドロップダウンで[Regular expression] (正規表現)を選択します。
-
[Use for validation] (検証で使用)スイッチを有効なままにしておきます。
正規表現を使用して、ディクショナリーまたは複合型による検証を行う場合、特定のカラムで正しい値や誤った値を定義するためにこれらのタイプが使用されます。この検証プロセスの結果は、データセットの各カラムのクオリティバーで確認できます。
いずれにしても、正規表現またはディクショナリーの値を使ってデータを検索すると、参照値および各カラムのセマンティックタイプを定義するデータとの間の一致率が計算されます。
この例では、スイッチを無効にすると、正規表現はデータの検索のみに使用され、値はいずれも無効と見なされません。
-
[Content] (コンテンツ)ドロップダウンリストで、検証する内容のタイプを選択します。この場合は、[Any character] (任意の文字)です。
このオプションでパフォーマンスが最適化されます。選択したタイプに一致するデータのみが検証されます。正規表現に対してアルファベット値か数値だけが検証されるよう選択することもできますが、イタリアの社会保障番号にはその両方が含まれているので、[Any character] (任意の文字)を選択する必要があります。
-
[Validation pattern] (検証パターン)フィールドに
^[A-Z]{6}[0-9]{2}[A-Z][0-9]{2}[A-Z][0-9]{3}[A-Z]$
と入力します。
この正規表現は、16文字の英数字コードであるイタリアのcodice fiscaleに一致するよう設計されています。このパターンに一致するデータはcodice fiscaleとして識別されます。
-
[Save and publish] (保存して公開)をクリックして新しいセマンティックタイプをTalend Dictionary Serviceサーバーに送信し、Talend Cloud Data Inventoryユーザーが使用できるようにします。
[Save as draft] (下書きとして保存)をクリックすると、セマンティックタイプはTalend Dictionary Serviceに保存されますが、Talend Cloudアプリケーションにはブロードキャストされません。そのため、セマンティックタイプの公開時期を選ぶことができます。
codice fiscaleタイプは、ステータスが公開済みになっているセマンティックタイプのリストで使用可能になります。
セマンティックタイプの変更は、新しいデータセットを作成するたびにTalend Cloud Data Inventoryへ即座に反映されます。既存のデータセットの場合は、新しいカテゴリーでクオリティを再計算できるようにサンプルを更新する必要があります。
-
イタリアの社会保障番号が含まれているデータセットに戻ります。
-
[Refresh sample] (サンプルを更新)ボタンをクリックします。
タスクの結果
これでデータは、
Talend Dictionary Serviceで手動で作成した
codice_fiscale
セマンティックタイプと一致するようになります。
今後、イタリアの社会保障番号を含んだ新しいデータセットをインポートすると、適切なタイプと自動的に一致するようになります。