新しい複合セマンティックタイプの追加 - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation

複合セマンティックを作成して、Talend Dictionaryサービスサーバーにパブリッシュされた他のセマンティックタイプをグループ化し、Talend Data Preparation内の認識されたデータタイプのリストに追加することができます。

複合タイプを作成する際は、セマンティックタイプをすべて混在させることが可能です。複合セマンティックタイプは、すべての子タイプが既に公開されていれば他の複合タイプを参照できます。

この例では、米国、英国、ドイツ、フランスの顧客に関する情報を含んだファイルを準備する必要があります。このデータセットのいずれかのカラムにこれらの国の郵便番号が含まれていますが、当然ながらその形式はさまざまです。この場合、Talend Data Preparationはカラムの値に最も一致するセマンティックタイプ(たとえば米国の郵便番号)を適用します。そのため、ドイツ、フランス、英国の郵便番号といった他のデータは無効と見なされます。

Talend Data Preparationによるセマンティックタイプの適用をこの状況に合わせるため、複合タイプを作成して、郵便番号の検証に使用する複数のセマンティックタイプを再分類します。

始める前に

複合タイプとして分類するセマンティックタイプがすべてパブリッシュされています。

手順

  1. Talend Data Preparationホームページの左側パネルの[Semantic types] (セマンティックタイプ)ビューを開いて、[Add semantic type] (セマンティックタイプの追加)をクリックします。
  2. [Name] (名前)フィールドにPostal codeと入力します。
  3. [Description] (説明)フィールドにAmerican, British, German and French postal codesと入力します。
  4. [Type] (タイプ)ドロップダウンリストで[Compound type] (複合タイプ)を選択します。
  5. [Use for validation] (検証で使用)スイッチを有効にしておきます。

    この複合タイプは、特定のカラムに適用する時に正しい値や誤った値を定義するために使われます。この検証プロセスの結果は、データセットの各カラムのクオリティバーで確認できます。

    この例では、スイッチを無効にすると複合タイプはデータの検索のみに使われ、どの値も無効とは見なされません。

  6. [Children types] (子タイプ)ドロップダウンリストから、この郵便番号複合タイプに分類するセマンティックタイプを選択します。
  7. [Save and publish] (保存してパブリッシュ)をクリックして新しい複合タイプをTalend Dictionaryサービスサーバーに送信し、Talend Data Preparationユーザーが使用できるようにします。

    [Save as draft] (下書きの保存)をクリックすると、セマンティックタイプはTalend Dictionaryサービスに保存されますが、Talend Webアプリケーションにはブロードキャストされません。そのため、セマンティックタイプの公開時期を選べるようになります。

    郵便番号タイプは、ステータスが[Published] (公開済み)になっているセマンティックタイプのリストで使用可能になります。

    セマンティックタイプの変更は、新しいデータセットをインポートするたびにTalend Data Preparationに即座に反映されます。既存のデータセットの場合、カラムのタイプを手動で変更するか、データセットを再インポートする必要があります。

  8. 複数の国の郵便番号が含まれているデータセットに戻ります。
  9. 郵便番号を含んだカラムのヘッダーにあるメニューアイコンをクリックして、[this columns is a...] (このカラムのタイプ) > [Postal code] (郵便番号)を選択します。

タスクの結果

これでデータは、Talend Dictionaryサービスで手動で作成した郵便番号複合タイプと一致するようになります。今後、郵便番号を含んだ新しいデータセットをインポートすると、適切なタイプと自動的に一致するようになります。