コマンドラインインターフェイスを使った、セマンティックタイプの削除 - 2.5

Talend Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
2.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

Talend Dictionaryサービスでセマンティックタイプを削除し、Talend Data Preparationで認識されたデータタイプのリストから削除できます。

事前定義済みのセマンティックタイプとカスタムセマンティックタイプの両方にこの操作を実行できます。

Talend Data Preparationにデフォルトで存在する各種セマンティックタイプは、ユーザーのビジネスには合わないことがあります。たとえば、5桁の数字はアメリカの郵便番号としても解釈されますが、フランス語またはドイツ語としても解釈される可能性があります。これらは同じフォーマットを共有するためです。

Talend Data Preparationは自動的に5桁の数をフランスの郵便番号に一致させる傾向にあります。仮に、あなたはアメリカの会社に勤務しており、アメリカのクライアントからのデータ(郵便番号など)のみを扱う作業に従事しているとしましょう。郵便番号が保管されたカラムに誤ったセマンティックタイプがあると、すぐに面倒なことになります。

この例では、準備しているデータセットのZIPカラムは、少なくとも4つのタイプに一致する可能性があります。

Talend Dictionaryサービスを使用して、5桁の形式に一致する他のセマンティックタイプを削除し、US_POSTAL_CODEのみを残します。変更は即座にTalend Data Preparationに移植され、今後、5桁の数字は自動的に米国の郵便番号として識別されます。

手順

  1. コマンドプロンプトウィンドウを開きます。
  2. cdコマンドを使用して、<Dictionary_Service_Path>/command-lineフォルダに移動します。
  3. 既存のセマンティックの種類の名前を表示し、削除するものを確認するには、次のコマンドを実行します: お使いのオペレーティングシステムに応じて:
    • Windowsの場合、category_manager.bat -l -type REGEX
    • Linuxの場合、./category_manager.sh -l -type REGEX

    Talend Administration Centerの認証情報の入力を求められます。このコマンドは、有効なログインとパスワードを入力した後に実行されます。

    正規表現に基づくセマンティックタイプのリストが表示されます。その中から削除するセマンティックタイプの名前、FR_POSTAL_CODEまたはDE_POSTAL_CODEを特定できます。

  4. フランスの郵便番号のセマンティックタイプを削除するには、オペレーティングシステムに応じて次のコマンドを実行します。
    • Windowsの場合、category_manager.bat -d -name FR_POSTAL_CODE
    • Linuxの場合、./category_manager.sh -d -name FR_POSTAL_CODE

    認識されたセマンティックタイプのリストからFR_POSTAL_CODEが削除され、5桁の数値はフランスの郵便番号に関連付られなくなります。

  5. この操作を繰り返して、5桁の数字と一致する他のセマンティックタイプを削除します。
    • DE_POSTAL_CODE
    • FR_INSEE_CODE
  6. Talend Data Preparationで、郵便番号を含んだカラムのプレパレーションに戻ります。

    セマンティックタイプの変更は即座に使用可能になります。今まで使っていたセマンティックタイプを削除したため、ZIPカラムは自動的にtextとして定義されます。

  7. 適切なセマンティックタイプをカラムに設定するには、カラムヘッダーの白い矢印をクリックします。
  8. マウスを[This column is a text] (このカラムはテキスト)に重ねて、[US Postal Code] (米国の郵便番号)を選択します。

    今回、ZipのデータはUS_POSTAL_CODEセマンティックタイプにのみ一致します。

タスクの結果

1つのセマンティックタイプを除き、5桁の数値と互換性のあるすべてのセマンティックタイプを削除しました。今後、新しいデータセットを追加するときには、このデータのタイプは米国の郵便番号として識別されます。

Talend Dictionaryサービスで使用可能なコマンドのリストを表示するには、Windowsの場合はcategory_manager.bat -h、Linux の場合は./category_manager.sh -hというコマンドを入力します。