新しい辞書ベースのセマンティックタイプの追加 - 7.2

Talend Data Stewardshipユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データガバナンス > キャンペーンの管理
データガバナンス > タスクの割り当て
データガバナンス > データモデルの管理
データクオリティとプレパレーション > セマンティックタイプの管理
データクオリティとプレパレーション > タスク管理
管理と監視 > ユーザーの管理
EnrichPlatform
Talend Data Stewardship

辞書に基づくセマンティックタイプをTalend Dictionaryサービスで作成し、Talend Data Stewardshipで認識されたデータタイプのリストに追加できます。ただし、重複した値は辞書ベースのセマンティックタイプでは許可されません。そのような値は無用であり、プロセスを遅延させる可能性があるためです。

Talend Data Stewardshipでは現在、すべてのデータタイプがいずれかの事前定義済みセマンティックタイプに一致すると​は限りません。たとえば、英国の郡は現在そのような形で認識されません。

このタスクについて

仮に、あなたが英国に居住している顧客のみを扱っている英国の会社に勤務しているとしましょう。この例では、顧客データ(名前、メールアドレス、顧客が住んでいる郡など)を登録して管理する必要があります。Data Stewardshipでデータモデルを定義する際に、郡を含むカラムに使用するセマンティックタイプが必要です。ここでは、データに固有のセマンティックタイプ(この場合はUK_countiesセマンティックタイプ)を追加します。

この新しいセマンティックタイプをTalend Dictionaryサービスで作成すると、自動的にData Stewardshipで使用可能になり、データを適切なタイプと照合して検証できます。

手順

  1. 英国の郡の包括的なリストを含む.txtファイルを作成し、DICT_UK_COUNTIES.txtとして保存します。
    1行あたり1項目を必ず入力してください。

    データを識別する目的のオープン(開いた)辞書とは異なり、この包括的なリストは、Talend Data Stewardshipでデータを検証するための値のクローズド(閉じた)辞書として機能します。リストされた値のいずれかと正確に一致するデータは英国の郡として分類されます。

  2. このファイルを<Dictionary_Service_Path>/command-line/samples/sourceフォルダーに追加します。
    このフォルダーはこの例のために使用されていますが、ファイルは好きな場所に保存できます。
  3. コマンドプロンプトウィンドウを開き、cdコマンドを使用して<Dictionary_Service_Path>/command-lineフォルダーに移動します。
  4. 新しいUK_countiesセマンティックタイプをTalend Dictionaryサービスで作成し、その異なるパラメーターを構成するには、次のコマンドを1行に入力し、オペレーティングシステムに応じて実行します。
    • category_manager.bat -c -name UK_counties -type DICT -cmpl true -desc "Counties of the United Kingdom" -src samples\source\DICT_UK_COUNTIES.txtWindowsの場合。
    • ./category_manager.sh -c -name UK_counties -type DICT -cmpl true -desc "Counties of the United Kingdom" -src samples/source/DICT_UK_COUNTIES.txtLinuxの場合。
    Talend Administration Centerの認証情報の入力を求められます。このコマンドは、有効なログインとパスワードを入力した後に実行されます。

    -cmpl属性は完了を表し、追加する辞書がクローズ辞書であるかどうかを判断するために使用されます。これはデフォルトではfalseに設定されていますが、この場合はtrueに設定する必要があります。オープン辞書はTalend Data Stewardshipではサポートされていません。

    UK_countiesセマンティックタイプは現在、Talend Dictionaryサービスのカテゴリーのリストに追加されています。

  5. Talend Data Stewardshipに戻り、英国の顧客データ用のデータモデルを作成します。

    これでUK_countiesをセマンティックタイプのリストで使用可能になります。Countyカラムにそれを設定できます。

タスクの結果

Talend Data Stewardshipに英国の郡を含むデータをロードすると、データは、Talend Dictionaryサービスで手動により作成したセマンティックタイプUK_countiesと照合され、検証されます。

使用可能なコマンドをTalend Dictionaryサービスですべて表示するには、<Dictionary_Service_Path>/command-lineに移動し、オペレーティングシステムに応じて次のコマンドを入力します。
  • Windowsの場合はcategory_manager.bat -h
  • Linuxの場合は./category_manager.sh -h