コマンドラインインターフェイスを使った、セマンティックタイプの削除 - 2.8

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
2.8
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

Talend Dictionaryサービスでセマンティックタイプを削除し、Talend Data Preparationで認識されたデータタイプのリストから削除できます。

事前定義済みのセマンティックタイプとカスタムセマンティックタイプの両方にこの操作を実行できます。

Talend Data Preparationにデフォルトで存在する各種セマンティックタイプは、ユーザーのビジネスには合わないことがあります。たとえば、5桁の数字はアメリカの郵便番号としても解釈されますが、フランス語またはドイツ語としても解釈される可能性があります。これらは同じフォーマットを共有するためです。

Talend Data Preparationは自動的に5桁の数をフランスの郵便番号に一致させる傾向にあります。仮に、あなたはアメリカの会社に勤務しており、アメリカのクライアントからのデータ(郵便番号など)のみを扱う作業に従事しているとしましょう。郵便番号が保管されたカラムに誤ったセマンティックタイプがあると、すぐに面倒なことになります。

この例では、準備しているデータセットのZIPカラムは、少なくとも4つのタイプに一致する可能性があります。

Talend Dictionaryサービスを使用して、5桁の形式に一致する他のセマンティックタイプを削除し、US_POSTAL_CODEのみを残します。変更は即座にTalend Data Preparationに移植され、今後、5桁の数字は自動的に米国の郵便番号として識別されます。

手順

  1. コマンドプロンプトウィンドウを開きます。
  2. cdコマンドを使って<Dictionary_Service_Path>/command-lineフォルダーに移動します。
  3. 既存のセマンティックタイプの名前を表示し、削除するセマンティックタイプを確認するには、オペレーティングシステムに応じて次のコマンドを実行します。
    • category_manager.bat -l -type REGEX (Windowsの場合)
    • ./category_manager.sh -l -type REGEX (Linuxの場合)

    Talend Administration Centerの認証情報の入力を求められます。このコマンドは、有効なログインとパスワードを入力した後に実行されます。

    正規表現に基づくセマンティックタイプのリストが表示されます。その中から削除したいセマンティックタイプの名前、FR_POSTAL_CODEまたはDE_POSTAL_CODEを識別できます。

  4. フランスの郵便番号のセマンティックタイプを削除するには、オペレーティングシステムに応じて次のコマンドを実行します。
    • category_manager.bat -d -name FR_POSTAL_CODE (Windowsの場合)
    • ./category_manager.sh -d -name FR_POSTAL_CODE (Linuxの場合)

    認識されたセマンティックタイプのリストからFR_POSTAL_CODEが削除され、5桁の数値がフランスの郵便番号に関連付けられることがもうなくなります。

  5. この操作を繰り返して、5桁の数字と一致する他のセマンティックタイプを削除します。
    • DE_POSTAL_CODE
    • FR_INSEE_CODE
  6. Talend Data Preparationで、郵便番号を含んだカラムのプレパレーションに戻ります。

    セマンティックタイプの変更は即座に使用可能になります。今まで使っていたセマンティックタイプを削除したので、ZIPカラムは自動的にtextとして定義されます。

  7. 適切なセマンティックタイプをカラムに設定するには、カラムヘッダーの白い矢印をクリックします。
  8. マウスを[This column is a text] (このカラムはテキスト)に重ねて、[US Postal Code] (米国の郵便番号)を選択します。

    今回、ZipのデータはUS_POSTAL_CODEセマンティックタイプとしか一致しません。

タスクの結果

1つのセマンティックタイプを除き、5桁の数値と互換性のあるすべてのセマンティックタイプを削除しました。今後、新しいデータセットを追加するときには、このデータのタイプは米国の郵便番号として識別されます。

使用可能なコマンドのリストをTalend Dictionaryサービスで表示するには、Windowsの場合はcategory_manager.bat -hコマンドを、Linux の場合は./category_manager.sh -hを入力します。