ユーザーインターフェイスから新しい正規表現ベースのセマンティックタイプを追加 - 2.8

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
2.8
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

正規表現に基づくセマンティックタイプをTalend Dictionaryサービスで作成し、Talend Data Preparationで認識されたデータタイプのリストに追加できます。

Talend Data Preparationでは現在、すべてのデータタイプが事前定義済みのセマンティックタイプのいずれかに一致するとは限りません。たとえば、現在のところイタリアの社会保障番号(codice fiscale)は認識されません。

仮に、あなたがイタリアの顧客のみを扱っているイタリアの会社に勤務しているとしましょう。この例では、顧客データ(名前、メールアドレス、社会保障番号など)をクリーニングする必要があります。社会保障番号を含んだカラムのセマンティックタイプは、textによってデフォルトの値に設定されます。これでは不十分であり、このデータのタイプを一致させるために、新しいカテゴリーを作成する必要があります。この場合はcodice fiscaleセマンティックタイプです。

この新しいセマンティックタイプをTalend Dictionaryサービスで作成すると、自動的にTalend Data Preparationで使用可能になり、データを適切なタイプに一致させることができます。

手順

  1. Talend Data Preparationホームページの左側パネルの[Semantic types] (セマンティックタイプ)ビューを開いて、[Add semantic type] (セマンティックタイプの追加)をクリックします。
  2. [Name] (名前)フィールドに「codice fiscale」と入力します。
  3. [Description] (説明)フィールドに「Italian social security number (イタリアの社会保障番号)」と入力します。
  4. [Type] (タイプ)ドロップダウンリストで[Regular expression] (正規表現)を選択します。
  5. [Use for validation] (検証で使用)スイッチを有効なままにしておきます。

    正規表現を使用して、辞書または複合タイプによる検証を行う場合、特定のカラムで正しい値または誤った値を定義するためにこれらのタイプが使用されます。この検証プロセスの結果は、データセットの各カラムのクオリティバーで確認できます。

    いずれにしても、正規表現または辞書の値を使ってデータを検索すると、参照値および各カラムのセマンティックタイプを定義するデータとの間のマッチ率が計算されます。

    この例では、スイッチを無効にすると、正規表現はデータの検索のみに使用され、値はいずれも無効と見なされません。

  6. [Content] (コンテンツ)ドロップダウンリストで、検証する内容のタイプを選択します。この場合は、[Any character] (任意の文字)です。

    このオプションにより、パフォーマンスが最適化されます。選択したタイプに一致するデータのみが検証されます。正規表現に対してアルファベットまたは数値の値だけが検証されるように選択することもできますが、イタリアの社会保障番号には両方が含まれているため、[Any character] (任意の文字)を選択する必要があります。

  7. [Validation pattern] (検証パターン)フィールドに「^[A-Z]{6}[0-9]{2}[A-Z][0-9]{2}[A-Z][0-9]{3}[A-Z]$」と入力します。

    この正規表現は、16文字の英数字コードであるイタリアのcodice fiscaleに一致するように設計されています。Talend Data Preparationでそのパターンに一致するデータは、codice fiscaleとして識別されます。

  8. [Save and publish] (保存してパブリッシュ)をクリックして新しいセマンティックタイプをTalend Dictionaryサービスサーバーに送信し、Talend Data Preparationユーザーが使用できるようにします。

    [Save as draft] (下書きの保存)をクリックすると、セマンティックタイプはTalend Dictionaryサービスに保存されますが、Talend Webアプリケーションにはブロードキャストされません。そのため、セマンティックタイプをいつパブリッシュするか、その時期を選ぶことができます。

    codice fiscaleタイプは、ステータスが公開済みになっているセマンティックタイプのリストで使用可能になります。

    セマンティックタイプの変更は、新しいデータセットをインポートするたびに、Talend Data Preparationに即座に反映されます。既存のデータセットの場合、カラムのタイプを手動で変更するか、データセットを再インポートする必要があります。

  9. イタリアの社会保障番号を含んだデータセットに戻ります。
  10. [codice_fiscaley]カラムヘッダーのメニューアイコンをクリックして、[this columns is a...] (このカラムのタイプ) > [codice fiscale]を選択します。

    カラムタイプは、新たに作成されたカテゴリーに一致します。

タスクの結果

これでデータは、Talend Dictionaryサービスで手動で作成したcodice_fiscaleセマンティックタイプと一致するようになります。今後、イタリアの社会保障番号を含んだ新しいデータセットをインポートすると、適切なタイプと自動的に一致するようになります。