クローズド(閉じた)のディクショナリーに基づくセマンティックタイプを[Semantic types] (セマンティックタイプ)メニューで作成し、認識されたデータ型のリストに追加できます。
Talend Cloud Data Preparationでは現在、すべてのデータ型がいずれかの事前定義済みセマンティックタイプに一致するとは限りません。たとえば英国の郡は現在そのような形で認識されません。
仮に、あなたが英国に居住している顧客のみを扱っている英国の会社に勤務しているとしましょう。この例では、一部の顧客データ(名前、メールアドレス、顧客が住んでいる郡など)をクリーニングする必要があります。郡データを含んだカラムのセマンティックタイプは、デフォルトでcity
に設定されます。一部のデータは実際に都市名と一致するかもしれませんが、データにもっと合ったセマンティックタイプを追加する必要があります。この場合は、UK_counties
セマンティックタイプです。
この新しいセマンティックタイプを専用のメニューで作成すると、自動的にプレパレーションで使用可能になるので、データを適切なタイプに一致させることができます。
手順
-
左側のメニューの[Semantic types] (セマンティックタイプ)タブをクリックします。
Talend Cloud Data Preparationのデフォルトの全セマンティックタイプのリストが開きます。完全なリストについては、事前定義済みセマンティックタイプをご覧ください。
-
[Add semantic type] (セマンティックタイプの追加)ボタンをクリックします。
-
[Name] (名前)フィールドに、セマンティックタイプに付ける名前を入力します。この例ではUK Countiesです。
-
[Description] (説明)フィールドにList of counties in the United Kingdomと入力します。
-
[Type] (タイプ)ドロップダウンリストで[Dictionary] (ディクショナリー)を選択します。
包括的な値のリストに基づいてセマンティックタイプが作成されます。
-
[Use for validation] (検証で使用)スイッチを有効なままにしておきます。
正規表現を使用して、ディクショナリーまたは複合型による検証を行う場合、特定のカラムで正しい値や誤った値を定義するためにこれらのタイプが使用されます。この検証プロセスの結果は、データセットの各カラムのクオリティバーで確認できます。
いずれにしても、正規表現またはディクショナリーの値を使ってデータを検索すると、参照値および各カラムのセマンティックタイプを定義するデータとの間の一致率が計算されます。
この例では、スイッチを無効にすると、ディクショナリーはデータの検索のみに使用され、値はいずれも無効と見なされません。
-
[Validation criterion] (条件の検証)ドロップダウンリストで、[Exact value] (厳密値)など、適用する制限ルールを選択します。
- [Simplified text] (簡略化テキスト): 検証中、句読点、空白、大文字と小文字の区別、アクセント記号が無視されます。たとえば
Pâté-en-croûte
が参照値の場合、pate-eN-cRoute
は有効と見なされますが、Pâté n croûte
は有効と見なされません。
- Ignore case and accents (大文字小文字とアクセントを無視): 検証中、大文字と小文字の区別、アクセント記号は無視されます。たとえば
Pâté-en-croûte
が参照値の場合、pate-en-croute
は有効と見なされますが、pate en croute
は有効と見なされません。
- [Exact value] (厳密値): 最も厳密な検証ルール。データは、参照値と完全に一致する場合にのみ、有効と見なされます。
-
[Values] (値)フィールドの
UK Counties
セマンティックタイプを構成する郡のリストを追加するには、次の操作を実行します。
- それぞれの値を手動で追加します。[plus] (プラス)アイコンをクリックして値を入力し、[check] (チェック)アイコンをクリックして変更を検証します。リストに追加する郡ごとに同じ手順を繰り返します。
- 英国の郡のプレーンテキストリストを含んだファイルをインポートします。[import] (インポート)ボタンをクリックして、アップロードするファイルを選択します。内容がプレーンテキストの場合、ファイル形式は重要ではありません。
注: テナントごとに10MBまでのコンテンツをTalend Dictionary Serviceにアップロードできます。
ドキュメンテーションページの[Downloads] (ダウンロード)タブで、dict_uk_counties.txtファイルを取得します。
各値をそれぞれの行に入力します。同じ行にあり、コンマで区切られている値はシノニムと見なされます。
ファイルからリストをインポートする際、英字以外の値を引用符で囲まないと、ファイルが拒否されます。
値の重複は許可されません。値を手動で入力すると、チェックが実行されます。ファイルのインポート時、重複除去ステップが自動的に実行されます。
これで郡の完全なリストが追加されます。
-
[Save and publish] (保存して公開)をクリックして新しいセマンティックタイプをTalend Dictionary Serviceサーバーに送信し、Talend Cloud Data Preparationユーザーが使用できるようにします。
[Save as draft] (下書きとして保存)をクリックすると、セマンティックタイプはTalend Dictionary Serviceに保存されますが、Talend Webアプリケーションにはブロードキャストされません。そのため、セマンティックタイプの公開時期を選ぶことができます。
UK Countiesタイプは、ステータスが公開済みになっているセマンティックタイプのリストで使用可能になります。
セマンティックタイプの変更は、新しいデータセットをインポートするたびにTalend Cloud Data Preparationに即座に反映されます。既存のデータセットの場合、カラムのタイプを手動で変更するか、データセットを再インポートする必要があります。
-
郡の名前が含まれているデータセットに戻ります。
-
Countyカラムヘッダーのメニューアイコンをクリックし、を選択します。
カラムタイプは、新たに作成されたカテゴリーと一致します。
タスクの結果
これでデータは、Talend Dictionary Serviceで手動で作成したUK Counties
セマンティックタイプと一致するようになります。今後、英国の郡の名前を含んだ新しいデータセットをインポートすると、適切なタイプと自動的に一致するようになります。