コマンドラインインターフェイスから新しい辞書ベースのセマンティックタイプを追加 - 2.8

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
2.8
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

クローズド(閉じた)辞書に基づくセマンティックタイプをTalend Dictionaryサービスで作成し、Talend Data Preparationで認識されたデータ型のリストに追加できます。

Talend Data Preparationでは現在、すべてのデータタイプが事前定義済みのセマンティックタイプのいずれかに一致するとは限りません。たとえば、英国の郡は現在そのような形で認識されません。

たとえば、英国に居住している顧客しか扱わない英国の会社に勤務しているとします。この例では、一部の顧客データ(名前、メールアドレス、顧客が住んでいる郡など)をクリーニングする必要があります。郡データを含んだカラムのセマンティックタイプは、cityによってデフォルトの値に設定されます。一部のデータは実際に都市名と一致するかもしれませんが、データにもっと合ったセマンティックタイプを追加する必要があります。この場合は、UK_countiesセマンティックタイプです。

この新しいセマンティックタイプをTalend Dictionaryサービスで作成すると、自動的にTalend Data Preparationで使用可能になり、データを適切なタイプに一致させることができます。

手順

  1. 英国の郡の包括的なリストを含む.txtファイルを作成し、DICT_UK_COUNTIES.txtとして保存します。

    1行ごとに1つのエントリーしか入力することはできません。

    この包括的なリストは、データを識別するためのオープン(開いた)辞書とは違って、Talend Data Preparationでデータを識別、検証するための値のクローズド(閉じた)辞書として機能します。表示された値のいずれかと正確に一致するデータは英国の郡として分類されます。

  2. このファイルを<Dictionary_Service_Path>/command-line/samples/sourceフォルダーに追加します。

    このフォルダーはこの例のために使用されていますが、ファイルは好きな場所に保存できます。

  3. コマンドプロンプトウィンドウを開きます。
  4. cdコマンドを使って<Dictionary_Service_Path>/command-lineフォルダーに移動します。
  5. 新しいUK_countiesセマンティックタイプをTalend Dictionaryサービスで作成し、その各種パラメーターを設定するには、オペレーティングシステムに応じて次のコマンドを実行します。
    • category_manager.bat -c -name UK_counties -type DICT -cmpl true -desc "Counties of the United Kingdom" -src samples\source\DICT_UK_COUNTIES.txt (Windowsの場合)
    • ./category_manager.sh -c -name UK_counties -type DICT -cmpl true -desc "Counties of the United Kingdom" -src samples/source/DICT_UK_COUNTIES.txt (Linuxの場合)

    このコマンドを使用できるようにするには、1つの行にコマンドを記述する必要があります。

    Talend Administration Centerの認証情報の入力を求められます。このコマンドは、有効なログインとパスワードを入力した後に実行されます。

    -cmpl属性は完了を表し、追加する辞書がオープンまたはクローズド辞書かどうかを判別するために使用されます。これはデフォルトではfalseに設定されていますが、この場合はtrueに設定する必要があります。

    これでUK_countiesセマンティックタイプは、Talend Dictionaryサービスのカテゴリーのリストに追加されました。

  6. Talend Data Preparationに戻って、郡の名前を含んだカラムのデータセットを開きます。

    セマンティックタイプの変更はTalend Data Preparationで即座に反映されますが、既存のデータセットとプレパレーションで変更結果を表示するには、カラムを手動で更新する必要があります。

  7. セマンティックタイムの変更を有効にするには、次のいずれかの操作を実行します。
    • データセットを再インポートする。
    • セマンティックタイプを更新するカラムをコピーする(この例ではCOUNTY)。

    カラムタイプは、新たに作成されたカテゴリーに一致します。

タスクの結果

これでデータは、Talend Dictionaryサービスで手動で作成したUK_countiesセマンティックタイプと一致するようになります。今後、英国の郡の名前を含んだ新しいデータセットをインポートすると、適切なタイプと自動的に一致するようになります。

使用可能なすべてのコマンドをTalend Dictionaryサービスで表示するには、<Dictionary_Service_Path>/command-lineに移動して、オペレーティングシステムに応じて次のコマンドを入力します。

  • category_manager.bat -hコマンド(Windowsの場合)
  • ./category_manager.sh -h (Linuxの場合)