新しい複合セマンティックタイプの追加 - 2.5

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
2.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

複合セマンティックを作成して、Talend Dictionary Serviceサーバーにパブリッシュされた他のセマンティックタイプをグループ化し、Talend Data Preparation内の認識されたデータタイプのリストに追加することができます。

複合タイプを作成する際にはすべてのセマンティックタイプを混在させることが可能です。複合セマンティックタイプは、すべての子タイプがすでにパブリッシュされているという条件で他の複合タイプを参照できます。

この例では、米国、英国、ドイツ、フランスの顧客に関する情報を含んだファイルを準備する必要があります。このデータセットのカラムの1つには、これらの各国の郵便番号が含まれており、当然、その形式は異なります。この場合、Talend Data Preparationは、カラムの値に最も一致するセマンティックタイプ、たとえば、US Postal codeを適用します。そのため、ドイツ、フランス、英国の郵便番号といったその他のデータは無効と見なされます。

Talend Data Preparationによるセマンティックタイプの適用をこの状況に合わせるため、複合タイプを作成して、郵便番号の検証に使用する複数のセマンティックタイプを再分類します。

始める前に

複合タイプとして分類するすべてのセマンティックタイプがパブリッシュされています。

手順

  1. Talend Data Preparationホームページの左側パネルの[Semantic types] (セマンティックタイプ)ビューを開いて、[Add semantic type] (セマンティックタイプの追加)をクリックします。
  2. [Name] (名前)フィールドに「Postal code (郵便番号)」と入力します。
  3. [Description] (説明)フィールドに「American, British, German and French postal codes (米国、英国、ドイツ、フランスの郵便番号)」と入力します。
  4. [Type] (タイプ)ドロップダウンリストで[Compound type] (複合タイプ)を選択します。
  5. [Use for validation] (検証で使用)スイッチを有効なままにしておきます。

    この複合タイプは、特定のカラムに適用するときに、正しい値または誤った値を定義するために使用されます。この検証プロセスの結果は、データセットの各カラムのクオリティバーで確認できます。

    この例では、スイッチを無効にすると、複合タイプはデータの検索のみに使用され、値はいずれも無効と見なされません。

  6. [Children types] (子タイプ)ドリップダウンリストから、このPostal code複合タイプに分類するセマンティックタイプを選択します。
  7. [Save and publish] (保存してパブリッシュ)をクリックして新しい複合タイプをTalend Dictionary Serviceサーバーに送信し、Talend Data Preparationユーザーが使用できるようにします。

    [Save as draft] (下書きの保存)をクリックすると、セマンティックタイプはTalend Dictionary Serviceに保存されますが、Talend Webアプリケーションにはブロードキャストされません。そのため、セマンティックタイプをいつパブリッシュするか、その時期を選ぶことができます。

    Postal codeタイプは、ステータスが公開済みになっているセマンティックタイプのリストで使用可能になります。

    セマンティックタイプの変更は、新しいデータセットをインポートするたびに、Talend Data Preparationに即座に反映されます。既存のデータセットの場合、カラムのタイプを手動で変更するか、データセットを再インポートする必要があります。

  8. 複数の国の郵便番号を含んだデータセットに戻ります。
  9. 郵便番号を含んだカラムのヘッダーにあるメニューアイコンをクリックして、[this columns is a...] (このカラムのタイプ) > [Postal code] (郵便番号)を選択します。

タスクの結果

これでデータは、Talend Dictionary Serviceで手動で作成したPostal code複合タイプと一致するようになります。今後、郵便番号を含んだ新しいデータセットをインポートすると、適切なタイプと自動的に一致するようになります。