新しい複合セマンティックタイプを追加 - 8.0

Talend Data Preparationユーザーガイド

Version
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
Last publication date
2024-03-26

複合セマンティックを作成して、Talend Dictionary Serviceサーバーに公開された他のセマンティックタイプをグルーピングし、Talend Data Preparation内の認識されたデータ型のリストに追加できます。

複合型を作成する際は、セマンティックタイプをすべて混在させることが可能です。複合セマンティックタイプは、すべての子タイプが既に公開されていれば他の複合型を参照できます。

この例では、米国、英国、ドイツ、フランスの顧客に関する情報を含んだファイルを準備する必要があります。このデータセットのいずれかのカラムにこれらの国の郵便番号が含まれていますが、当然ながらその形式はさまざまです。この場合、Talend Data Preparationはカラムの値に最も一致するセマンティックタイプ(たとえば米国の郵便番号)を適用します。そのため、残りのデータであるドイツ、フランス、英国の郵便番号は無効と見なされます。

Talend Data Preparationによるセマンティックタイプの適用をこの状況に合わせるため、複合型を作成して、郵便番号の検証に使用する複数のセマンティックタイプを再分類します。

始める前に

複合型として分類するセマンティックタイプがすべて公開されています。

手順

  1. Talend Data Preparationホームページの左パネルの[Semantic types] (セマンティックタイプ)ビューを開いて、[Add semantic type] (セマンティックタイプの追加)をクリックします。
  2. [Name] (名前)フィールドにPostal codeと入力します。
  3. [Description] (説明)フィールドにAmerican, British, German and French postal codesと入力します。
  4. [Type] (タイプ)ドロップダウンリストで[Compound type] (複合型)を選択します。
  5. [Use for validation] (検証で使用)スイッチを有効なままにしておきます。

    この複合型は、特定のカラムに適用する時に正しい値や誤った値を定義するために使われます。この検証プロセスの結果は、データセットの各カラムのクオリティバーで確認できます。

    この例では、スイッチを無効にすると複合型はデータの検索のみに使われ、どの値も無効とは見なされません。

  6. [Children types] (子タイプ)ドロップダウンリストから、この郵便番号複合型に分類するセマンティックタイプを選択します。
  7. [Save and publish] (保存して公開)をクリックして新しい複合型をTalend Dictionary Serviceサーバーに送信し、Talend Data Preparationユーザーが使用できるようにします。

    [Save as draft] (下書きとして保存)をクリックすると、セマンティックタイプはTalend Dictionary Serviceに保存されますが、Talend Webアプリケーションにはブロードキャストされません。そのため、セマンティックタイプの公開時期を選ぶことができます。

    郵便番号タイプは、ステータスが[Published] (公開済み)になっているセマンティックタイプのリストで使用可能になります。

    セマンティックタイプの変更は、新しいデータセットをインポートするたびにTalend Data Preparationに即座に反映されます。既存のデータセットの場合、カラムのタイプを手動で変更するか、データセットを再インポートする必要があります。

  8. 複数の国の郵便番号が含まれているデータセットに戻ります。
  9. 郵便番号を含んだカラムのヘッダーにあるメニューアイコンをクリックして、[this columns is a...] (このカラムのタイプ) > Postal codeを選択します。

タスクの結果

これでデータは、Talend Dictionary Serviceで手動で作成した郵便番号複合型と一致するようになります。今後、郵便番号を含んだ新しいデータセットをインポートすると、適切なタイプと自動的に一致するようになります。