新しい辞書ベースのセマンティックタイプの追加 - Cloud

Talend Cloud Data Inventoryユーザーガイド

EnrichVersion
Cloud
EnrichProdName
Talend Cloud
EnrichPlatform
Talend Data Inventory
task
データガバナンス
データクオリティとプレパレーション > データの充実化
データクオリティとプレパレーション > データの識別
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理

クローズド(閉じた)の辞書に基づくセマンティックタイプを[Semantic types] (セマンティックタイプ)メニューで作成し、認識されたデータ型のリストに追加できます。

このアプリケーションでは現在、すべてのデータタイプがいずれかの事前定義済みセマンティックタイプに一致するとは限りません。たとえば英国の郡は現在そのような形で認識されません。

ここで、あなたは英国に居住している顧客のみを扱っている英国の会社に勤務しているとしましょう。この例では、一部の顧客データセット(名前、メールアドレス、顧客が住んでいる郡など)を作成しました。郡データを含んだカラムのセマンティックタイプは、cityによってデフォルトの値に設定されます。一部のデータは実際に都市名と一致するかもしれませんが、データにもっと合ったセマンティックタイプを追加する必要があります。この場合は、UK_countiesセマンティックタイプです。

この新しいセマンティックタイプを専用のメニューで作成すると自動的にデータセットで使用可能になるので、データを適切なタイプに一致させることができます。

手順

  1. ホームページの左パネルで[Semantic Types] (セマンティックタイプ)ビューを開きます。
    Talend Dictionary Serviceのデフォルトの全セマンティックタイプのリストが開きます。
  2. [Add semantic type] (セマンティックタイプの追加)ボタンをクリックします。
    セマンティックタイプ作成フォームが開きます。
  3. [Name] (名前)フィールドに、セマンティックタイプに付ける名前を入力します。この例ではUK Countiesです。
  4. [Description] (説明)フィールドにList of counties in the United Kingdomと入力します。
  5. [Type] (タイプ)ドロップダウンリストで[Dictionary] (辞書)を選択します。
    包括的な値のリストに基づいてセマンティックタイプが作成されます。
  6. [Use for validation] (検証で使用)スイッチを有効なままにしておきます。

    正規表現を使用して、辞書または複合タイプによる検証を行う場合、特定のカラムで正しい値や誤った値を定義するためにこれらのタイプが使用されます。この検証プロセスの結果は、データセットサンプルにある各カラムのクオリティバーで確認できます。

    いずれにしても、正規表現または辞書の値を使ってデータを検索すると、参照値および各カラムのセマンティックタイプを定義するデータとの間のマッチ率が計算されます。

    この例では、スイッチを無効にすると、辞書はデータの検索のみに使用され、値はいずれも無効と見なされません。

  7. [Validation criterion] (条件の検証)ドロップダウンリストで、[Exact value] (厳密値)など、適用する制限ルールを選択します。
    • Simplified text (簡略化テキスト): 検証中、句読点、空白、大文字と小文字の区別、アクセント記号が無視されます。たとえばPâté-en-croûteが参照値の場合、pate-eN-cRouteは有効と見なされますが、Pâté n croûteは有効と見なされません。
    • Ignore case and accents (大文字小文字とアクセントを無視): 検証中、大文字と小文字の区別、アクセント記号は無視されます。たとえばPâté-en-croûteが参照値の場合、pate-en-crouteは有効と見なされますが、pate en crouteは有効と見なされません。
    • Exact value (厳密値): 最も厳密な検証ルール。データは、参照値と完全に一致する場合にのみ、有効と見なされます。
  8. [Values] (値)フィールドのUK Countiesセマンティックタイプを構成する郡のリストを追加するには、次の操作を実行します。
    • それぞれの値を手動で追加します。[plus] (プラス)アイコンをクリックして値を入力し、[check] (チェック)アイコンをクリックして変更を検証します。リストに追加する郡ごとに同じ手順を繰り返します。
    • 英国の郡のプレーンテキストリストを含んだファイルをインポートします。[import] (インポート)ボタンをクリックして、アップロードするファイルを選択します。内容がプレーンテキストの場合、ファイル形式は重要ではありません。
      注: テナントごとにコンテンツを10MBまでTalend Dictionary Serviceにアップロードできます。

      このページの左側パネルにある[Downloads] (ダウンロード)タブからdict_uk_counties.txtファイルを取得します。

      各値をそれぞれの行に入力します。同じ行にあり、コンマで区切られている値はシノニムと見なされます。

      ファイルからリストをインポートする際、英字以外の値を引用符で囲まないと、ファイルが拒否されます。

    値の重複は許可されません。値を手動で入力すると、チェックが実行されます。ファイルのインポート時、重複除去ステップが自動的に実行されます。

    これで郡の完全なリストが追加されます。

  9. [Save and publish] (保存して公開)をクリックして新しいセマンティックタイプをTalend Dictionary Serviceサーバーに送信し、Talend Cloud Data Inventoryユーザーが使用できるようにします。

    [Save as draft] (下書きの保存)をクリックすると、セマンティックタイプはTalend Dictionary Serviceに保存されますが、Talend Cloudアプリケーションにはブロードキャストされません。そのため、セマンティックタイプの公開時期を選ぶことができます。

    UK Countiesタイプは、ステータスが公開済みになっているセマンティックタイプのリストで使用可能になります。

    セマンティックタイプの変更は、新しいデータセットを作成するたびにTalend Cloud Data Inventoryへ即座に反映されます。既存のデータセットの場合は、新しいカテゴリーでクオリティを再計算できるようにサンプルを更新する必要があります。

  10. 郡の名前が含まれているデータセットに戻ります。
  11. [Refresh sample] (サンプルを更新)ボタンをクリックします。

タスクの結果

これでデータは、Talend Dictionary Serviceで手動で作成したUK Countiesセマンティックタイプと一致するようになります。

今後、英国の郡の名前を含んだ新しいデータセットをインポートすると、適切なタイプと自動的に一致するようになります。