コマンドラインインターフェイスを使った、既存のセマンティックタイプの更新 - 2.8

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
2.8
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

Talend Dictionaryサービスで既存のセマンティックタイプを編集し、Talend Data Preparationでのデータ検証方法に影響を与えることができます。

Talend Data Preparationの事前定義済みセマンティックタイプは標準値に基づいていますが、独自のデータに合わせてセマンティックタイプを調整する必要があります。事前定義済みカテゴリーに入ると思われる一部のデータは、無効とみなされる可能性があります。

ここで、メールアドレス、生年月日、居住国を示す顧客リストを含むデータセットの例を見てみましょう。[United States of America] (アメリカ合衆国)のすべてのエントリーは無効であるとみなされます。その名前は正式名称であるため本来は無効であってはなりません。

ここで問題となるのは、United States of America(アメリカ合衆国)は、Talend Data Preparationcountryセマンティックタイプの期待値の1つではないということです。このケースでの有効なエントリーは[United States] (米国)です。

今後この問題の発生を回避するために、Talend Dictionaryサービスcountryセマンティックタイプを更新し、United States of Americaを有効なエントリーのリストに追加します。この変更は、Talend Data Preparationで自動的に使用可能になります。

手順

  1. コマンドプロンプトウィンドウを開きます。
  2. cdコマンドを使って<Dictionary_Service_Path>/command-lineフォルダーに移動します。
  3. 有効な国のリストに値United States of Americaを追加するには、オペレーティングシステムに応じて次のコマンドを実行します。
    • category_manager.bat -a -name COUNTRY -value "United States of America" (Windowsの場合)
    • ./category_manager.sh -a -name COUNTRY -value "United States of America" (Linuxの場合)

    このコマンドを使用できるようにするには、1つの行にコマンドを記述する必要があります。

    Talend Administration Centerの認証情報の入力を求められます。このコマンドは、有効なログインとパスワードを入力した後に実行されます。

  4. countryセマンティックタイプのエントリーのリストを表示するには、オペレーティングシステムに応じて以下のコマンドを実行します:
    • category_manager.bat -e -name COUNTRY (Windowsの場合)
    • ./category_manager.sh -e -name COUNTRY (Linuxの場合)

    countryセマンティックタイプの有効なエントリーのリストの最後にUnited States of Americaが適切に追加されています。

  5. Talend Data Preparationに戻って、顧客の国を含んだカラムのデータセットを開きます。

    セマンティックタイプの変更はTalend Data Preparationで即座に反映されますが、既存のデータセットとプレパレーションで変更結果を表示するには、カラムを手動で更新する必要があります。

  6. 国リストの変更を有効にするには、次のいずれかを行います:
    • データセットを再インポートする。
    • セマンティックタイプを更新するカラムをコピーする(この例ではCOUNTTY)。

    カラムヘッダーの下のクオリティバーを確認すると、無効な値がなくなっています。

タスクの結果

countryセマンティックタイプは、新しい値をサポートするように手動で更新されています。

以降、countryセマンティックタイプと照合されるデータを扱う際には、United States of America(アメリカ合衆国)は有効な値とみなされます。

使用可能なすべてのコマンドをTalend Dictionaryサービスで表示するには、<Dictionary_Service_Path>/command-lineに移動して、オペレーティングシステムに応じて次のコマンドを入力します。

  • category_manager.bat -hコマンド(Windowsの場合)
  • ./category_manager.sh -h (Linuxの場合)