ユーザーインターフェイスから新しい辞書ベースのセマンティックタイプを追加 - 2.5

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
2.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

クローズド(閉じた)辞書に基づくセマンティックタイプを[Semantic types] (セマンティックタイプ)メニューで作成し、認識されたデータ型のリストに追加できます。

Talend Data Preparationでは現在、すべてのデータタイプが事前定義済みのセマンティックタイプのいずれかに一致するとは限りません。たとえば、英国の郡は現在そのような形で認識されません。

たとえば、英国に居住している顧客しか扱わない英国の会社に勤務しているとします。この例では、一部の顧客データ(名前、メールアドレス、顧客が住んでいる郡など)をクリーニングする必要があります。郡データを含んだカラムのセマンティックタイプは、cityによってデフォルトの値に設定されます。一部のデータは実際に都市名と一致するかもしれませんが、データにもっと合ったセマンティックタイプを追加する必要があります。この場合は、UK_countiesセマンティックタイプです。

この新しいセマンティックタイプを専用のメニューで作成すると、自動的にプレパレーションで使用可能になるので、データを適切なタイプに一致させることができます。

手順

  1. 左側のメニューの[Semantic types] (セマンティックタイプ)タブをクリックします。

    Talend Data Preparationのデフォルトの全セマンティックタイプのリストが開きます。完全なリストについては、事前定義済みのセマンティックタイプを参照してください。

  2. [Add semantic type] (セマンティックタイプの追加)ボタンをクリックします。

    セマンティックタイプ作成フォームが開きます。

  3. [Name] (名前)フィールドに、セマンティックタイプに付ける名前を入力します。この例では、UK Counties (英国の郡)です。
  4. [Description] (説明)フィールドに「List of counties in the United Kingdom (英国の郡のリスト)」と入力します。
  5. [Type] (タイプ)ドロップダウンリストで[Dictionary] (辞書)を選択します。

    包括的な値のリストに基づいてセマンティックタイプが作成されます。

  6. [Use for validation] (検証で使用)スイッチを有効なままにしておきます。

    正規表現を使用して、辞書または複合タイプによる検証を行う場合、特定のカラムで正しい値または誤った値を定義するためにこれらのタイプが使用されます。この検証プロセスの結果は、データセットの各カラムのクオリティバーで確認できます。

    いずれにしても、正規表現または辞書の値を使ってデータを検索すると、参照値および各カラムのセマンティックタイプを定義するデータとの間のマッチ率が計算されます。

    この例では、スイッチを無効にすると、辞書はデータの検索のみに使用され、値はいずれも無効と見なされません。

  7. [Validation criterion] (条件の検証)ドロップダウンリストで、[Exact value] (正確な値)など、適用する制限ルールを選択します。
    • Simplified text (簡略化テキスト): 検証中、句読点、空白、大文字と小文字の区別、アクセント記号が無視されます。たとえば、Pâté-en-croûteが参照値の場合、pate-eN-cRouteは有効と見なされますが、Pâté n croûteは有効と見なされません。
    • Ignore case and accents (大文字小文字アクセントを無視): 検証中、大文字と小文字の区別、アクセント記号は無視されます。たとえば、Pâté-en-croûteが参照値の場合、pate-en-crouteは有効と見なされますが、pate en crouteは有効と見なされません。
    • Exact value (正確な値): 最も厳密な検証ルール。データは、参照値と完全に一致する場合にのみ、有効とみなされます。
  8. Values (値)フィールドのUK Countiesセマンティックタイプを構成する郡のリストを追加するには、次の操作を実行します。
    • それぞれの値を手動で追加します。[plus] (プラス)アイコンをクリックして値を入力し、[tick] (チェックマーク)アイコンをクリックして変更を検証します。リストに追加する郡ごとに同じ手順を繰り返します。
    • 英国の郡のプレーンテキストリストを含んだファイルをインポートします。[import] (インポート)ボタンをクリックして、アップロードするファイルを選択します。内容がプレーンテキストの場合、ファイル形式は重要ではありません。

      このページの左側パネルにある[Downloads] (ダウンロード)タブからdict_uk_counties.txtファイルを取得します。

      各値をそれぞれの行に入力します。同じ行にあり、コンマで区切られている値はシノニムと見なされます。

      ファイルからリストをインポートする際、英字以外の値を引用符で囲まないと、ファイルが拒否されます。

    値の重複は許可されません。値を手動で入力すると、チェックが実行されます。ファイルのインポート時、重複排除ステップが自動的に実行されます。

    これで郡の完全なリストが追加されます。

  9. [Save and publish] (保存してパブリッシュ)をクリックして新しいセマンティックタイプをTalend Dictionary Serviceサーバーに送信し、Talend Data Preparationユーザーが使用できるようにします。

    [Save as draft] (下書きの保存)をクリックすると、セマンティックタイプはTalend Dictionary Serviceに保存されますが、Talend Webアプリケーションにはブロードキャストされません。そのため、セマンティックタイプをいつパブリッシュするか、その時期を選ぶことができます。

    UK Counties (英国の郡)タイプは、ステータスが公開済みになっているセマンティックタイプのリストで使用可能になります。

    セマンティックタイプの変更は、新しいデータセットをインポートするたびに、Talend Data Preparationに即座に反映されます。既存のデータセットの場合、カラムのタイプを手動で変更するか、データセットを再インポートする必要があります。

  10. 郡の名前を含んだデータセットに戻ります。
  11. [County] (郡)カラムヘッダーのメニューアイコンをクリックして、[this columns is a...] (このカラムのタイプ) > [UK Counties] (英国の郡)を選択します。

    カラムタイプは、新たに作成されたカテゴリーに一致します。

タスクの結果

これでデータは、Talend Dictionary Serviceで手動で作成したUK Countiesセマンティックタイプと一致するようになります。今後、英国の郡の名前を含んだ新しいデータセットをインポートすると、適切なタイプと自動的に一致するようになります。