コマンドラインインターフェイスから新しい正規表現ベースのセマンティックタイプを追加 - 2.8

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
2.8
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

正規表現に基づくセマンティックタイプをTalend Dictionaryサービスで作成し、Talend Data Preparationで認識されたデータタイプのリストに追加できます。

Talend Data Preparationでは現在、すべてのデータタイプが事前定義済みのセマンティックタイプのいずれかに一致するとは限りません。たとえば、現在のところイタリアの社会保障番号(codice fiscale)は認識されません。

仮に、あなたがイタリアの顧客のみを扱っているイタリアの会社に勤務しているとしましょう。この例では、顧客データ(名前、メールアドレス、社会保障番号など)をクリーニングする必要があります。社会保障番号を含んだカラムのセマンティックタイプは、textによってデフォルトの値に設定されます。これは少し残念なことですが、このデータのタイプとの照合のために、より具体的なカテゴリーを作成することになります。この場合はcodice_fiscaleセマンティックタイプです。

この新しいセマンティックタイプをTalend Dictionaryサービスで作成すると、自動的にTalend Data Preparationで使用可能になり、データを適切なタイプに一致させることができます。

手順

  1. 次の正規表現を含む.txtファイルを作成し、REGEX_CODICE_FISCALE.txtとして保存します。

    この正規表現は、16文字の英数字コードであるイタリアのcodice fiscaleに一致するように設計されています。Talend Data Preparationでそのパターンに一致するデータは、codice fiscaleとして識別されます。

  2. このファイルを<Dictionary_Service_Path>/command-line/samples/sourceフォルダーに追加します。

    このフォルダーはこの例のために使用されていますが、ファイルは好きな場所に保存できます。

  3. コマンドプロンプトウィンドウを開きます。
  4. cdコマンドを使って<Dictionary_Service_Path>/command-lineフォルダーに移動します。
  5. 新しいcodice_fiscaleセマンティックタイプをTalend Dictionaryサービスで作成し、その各種パラメーターを設定するには、オペレーティングシステムに応じて次のコマンドを実行します。
    • category_manager.bat -c -name codice_fiscale -type REGEX -desc "Italian social security number" -src samples\source\REGEX_codice_fiscale.txt (Windowsの場合)
    • ./category_manager.sh -c -name codice_fiscale -type REGEX -desc "Italian social security number" -src samples/source/REGEX_codice_fiscale.txt (Linuxの場合)

    このコマンドを使用できるようにするには、1つの行にコマンドを記述する必要があります。

    Talend Administration Centerの認証情報の入力を求められます。このコマンドは、有効なログインとパスワードを入力した後に実行されます。

    codice_fiscaleセマンティックタイプは現在、Talend Dictionaryサービスのカテゴリーのリストに追加されています。

  6. Talend Data Preparationに戻って、社会保障番号を含んだカラムのデータセットを開きます。

    セマンティックタイプの変更は、新しいデータセットをインポートするたびに、Talend Data Preparationに即座に反映されます。既存のデータセットの場合、カラムのタイプを手動で変更します。

  7. 新しいcodice_fiscaleセマンティックタイプをカラムに適用するには、カラム名の横の白い矢印をクリックします。
  8. [This column is a...] (このカラムのタイプ) > [codice_fiscale]をクリックします。

    カラムタイプは、新たに作成されたカテゴリーに一致します。

タスクの結果

これでデータは、Talend Dictionaryサービスで手動で作成したcodice_fiscaleセマンティックタイプと一致するようになります。今後、イタリアの社会保障番号を含んだ新しいデータセットをインポートすると、適切なタイプと自動的に一致するようになります。

使用可能なすべてのコマンドをTalend Dictionaryサービスで表示するには、<Dictionary_Service_Path>/command-lineに移動して、オペレーティングシステムに応じて次のコマンドを入力します。

  • category_manager.bat -hコマンド(Windowsの場合)
  • ./category_manager.sh -h (Linuxの場合)