ユーザーインターフェイスで新しい辞書ベースのセマンティックタイプを追加 - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation

クローズド(閉じた)辞書に基づくセマンティックタイプを[Semantic types] (セマンティックタイプ)メニューで作成し、認識されたデータ型のリストに追加できます。

Talend Cloud Data Preparationでは現在、すべてのデータタイプがいずれかの事前定義済みセマンティックタイプに一致すると​は限りません。たとえば英国の郡は現在そのような形で認識されません。

仮に、あなたが英国に居住している顧客のみを扱っている英国の会社に勤務しているとしましょう。この例では、一部の顧客データ(名前、メールアドレス、顧客が住んでいる郡など)をクリーニングする必要があります。郡データを含んだカラムのセマンティックタイプは、デフォルトでcityに設定されます。一部のデータは実際に都市名と一致するかもしれませんが、データにもっと合ったセマンティックタイプを追加する必要があります。この場合は、UK_countiesセマンティックタイプです。

この新しいセマンティックタイプを専用のメニューで作成すると、自動的にプレパレーションで使用可能になるので、データを適切なタイプに一致させることができます。

手順

  1. 左側のメニューの[Semantic types] (セマンティックタイプ)タブをクリックします。

    Talend Cloud Data Preparationのデフォルトの全セマンティックタイプのリストが開きます。完全なリストについては、定義済みのセマンティックタイプを参照してください。

  2. [Add semantic type] (セマンティックタイプの追加)ボタンをクリックします。

    セマンティックタイプ作成フォームが開きます。

  3. [Name] (名前)フィールドに、セマンティックタイプに付ける名前を入力します。この例ではUK Countiesです。
  4. [Description] (説明)フィールドにList of counties in the United Kingdomと入力します。
  5. [Type] (タイプ)ドロップダウンリストで[Dictionary] (辞書)を選択します。

    包括的な値のリストに基づいてセマンティックタイプが作成されます。

  6. [Use for validation] (検証で使用)スイッチを有効なままにしておきます。

    正規表現を使用して、辞書または複合タイプによる検証を行う場合、特定のカラムで正しい値や誤った値を定義するためにこれらのタイプが使用されます。この検証プロセスの結果は、データセットの各カラムのクオリティバーで確認できます。

    いずれにしても、正規表現または辞書の値を使ってデータを検索すると、参照値および各カラムのセマンティックタイプを定義するデータとの間のマッチ率が計算されます。

    この例では、スイッチを無効にすると、辞書はデータの検索のみに使用され、値はいずれも無効と見なされません。

  7. [Validation criterion] (条件の検証)ドロップダウンリストで、[Exact value] (正確な値)など、適用する制限ルールを選択します。
    • Simplified text (簡略化テキスト): 検証中、句読点、空白、大文字と小文字の区別、アクセント記号が無視されます。たとえばPâté-en-croûteが参照値の場合、pate-eN-cRouteは有効と見なされますが、Pâté n croûteは有効と見なされません。
    • Ignore case and accents (大文字小文字とアクセントを無視): 検証中、大文字と小文字の区別、アクセント記号は無視されます。たとえばPâté-en-croûteが参照値の場合、pate-en-crouteは有効と見なされますが、pate en crouteは有効と見なされません。
    • Exact value (正確な値): 最も厳密な検証ルールです。データは、参照値と完全に一致する場合にのみ、有効と見なされます。
  8. [Values] (値)フィールドのUK Countiesセマンティックタイプを構成する郡のリストを追加するには、次の操作を実行します。
    • それぞれの値を手動で追加します。[plus] (プラス)アイコンをクリックして値を入力し、[check] (チェック)アイコンをクリックして変更を検証します。リストに追加する郡ごとに同じ手順を繰り返します。
    • 英国の郡のプレーンテキストリストを含んだファイルをインポートします。[import] (インポート)ボタンをクリックして、アップロードするファイルを選択します。内容がプレーンテキストの場合、ファイル形式は重要ではありません。

      このページの左側パネルにある[Downloads] (ダウンロード)タブからdict_uk_counties.txtファイルを取得します。

      各値をそれぞれの行に入力します。同じ行にあり、コンマで区切られている値はシノニムと見なされます。

      ファイルからリストをインポートする際、英字以外の値を引用符で囲まないと、ファイルが拒否されます。

    値の重複は許可されません。値を手動で入力すると、チェックが実行されます。ファイルのインポート時、重複排除ステップが自動的に実行されます。

    これで郡の完全なリストが追加されます。

  9. [Save and publish] (保存して公開)をクリックして新しいセマンティックタイプをTalend Dictionaryサービスサーバーに送信し、Talend Cloud Data Preparationユーザーが使用できるようにします。

    [Save as draft] (下書きの保存)をクリックすると、セマンティックタイプはTalend Dictionaryサービスに保存されますが、Talend Webアプリケーションにはブロードキャストされません。そのため、セマンティックタイプの公開時期を選ぶことができます。

    UK Countiesタイプは、ステータスが公開済みになっているセマンティックタイプのリストで使用可能になります。

    セマンティックタイプの変更は、新しいデータセットをインポートするたびにTalend Cloud Data Preparationに即座に反映されます。既存のデータセットの場合、カラムのタイプを手動で変更するか、データセットを再インポートする必要があります。

  10. 郡の名前が含まれているデータセットに戻ります。
  11. [County] (郡)カラムヘッダーのメニューアイコンをクリックし、this column is a... > UK Countiesを選択します。

    カラムタイプは、新たに作成されたカテゴリーに一致します。

タスクの結果

これでデータは、Talend Dictionaryサービスで手動で作成したUK Countiesセマンティックタイプと一致するようになります。今後、英国の郡の名前を含んだ新しいデータセットをインポートすると、適切なタイプと自動的に一致するようになります。