新しい正規表現ベースのセマンティックタイプの追加 - 7.2

Talend Data Stewardshipユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データガバナンス > キャンペーンの管理
データガバナンス > タスクの割り当て
データガバナンス > データモデルの管理
データクオリティとプレパレーション > セマンティックタイプの管理
データクオリティとプレパレーション > タスク管理
管理と監視 > ユーザーの管理
EnrichPlatform
Talend Data Stewardship

正規表現に基づくセマンティックタイプをTalend Dictionaryサービスで作成し、Data Stewardshipで認識されたデータタイプのリストに追加できます。

Talend Dictionaryサービスでは、現在、すべてのタイプのデータが、事前定義済みのセマンティックタイプの1つと照合され、検証されるわけではありません。たとえば、現在のところイタリアの社会保障番号(codice fiscale)は認識されません。

このタスクについて

仮に、あなたがイタリアの顧客のみを扱っているイタリアの会社に勤務しているとしましょう。この例では、顧客データ(名前、メールアドレス、社会保障番号など)を登録して管理する必要があります。Data Stewardshipでデータモデルを定義する場合、社会保障番号を含むカラムのセマンティックタイプを、イタリア社会保障番号のセマンティックタイプが事前定義されていないtextに設定することが義務付けられます。これは少し残念なことですが、このデータのタイプとの一致のために、より具体的なカテゴリを作成することになります。この場合は、codice_fiscaleセマンティックタイプです。

この新しいセマンティックタイプをTalend Dictionaryサービスで作成すると、自動的にData Stewardshipで使用可能になり、データを適切なタイプと照合して検証できます。

手順

  1. 次の正規表現を含む.txtファイルを作成し、REGEX_CODICE_FISCALE.txtとして保存します。

    この正規表現は、16文字の英数字コードであるイタリアのcodice fiscaleに一致するように設計されています。

  2. このファイルを<Dictionary_Service_Path>/command-line/samples/sourceフォルダーに追加します。
    このフォルダーはこの例のために使用されていますが、ファイルは好きな場所に保存できます。
  3. コマンドプロンプトウィンドウを開き、cdコマンドを使用して<Dictionary_Service_Path>/command-lineフォルダーに移動します。
  4. 新しいcodice_fiscaleセマンティックタイプをTalend Dictionaryサービスで作成し、その異なるパラメーターを設定するには、次のコマンドを1行に入力し、オペレーティングシステムに応じて実行します。
    • Windowsの場合、category_manager.bat -c -name codice_fiscale -type REGEX -desc "Italian social security number" -src samples\source\REGEX_codice_fiscale.txt
    • Linuxの場合、./category_manager.sh -c -name codice_fiscale -type REGEX -desc "Italian social security number" -src samples/source/REGEX_codice_fiscale.txt
    Talend Administration Centerの認証情報の入力を求められます。このコマンドは、有効なログインとパスワードを入力した後に実行されます。

    codice_fiscaleセマンティックタイプは現在、Talend Dictionaryサービスのカテゴリーのリストに追加されています。

  5. Talend Data Stewardshipに戻り、イタリアの顧客データ用のデータモデルを作成します。
    新しいセマンティックカテゴリcodice_fiscaleは、セマンティックタイプのリストで使用可能になり、社会保障番号を含むカラムに設定できます。

タスクの結果

Talend Data Stewardshipに顧客データをロードすると、データは、Talend Dictionaryサービスで作成したcodice_fiscaleセマンティックタイプと照合され、検証されます。
使用可能なコマンドをTalend Dictionaryサービスですべて表示するには、<Dictionary_Service_Path>/command-lineに移動し、オペレーティングシステムに応じて次のコマンドを入力します。
  • Windowsの場合はcategory_manager.bat -h
  • Linuxの場合は./category_manager.sh -h