人気カラムのセマンティックタイプを変更 - Cloud

Talend Cloud Data Inventory入門ガイド

EnrichVersion
Cloud
EnrichProdName
Talend Cloud
EnrichPlatform
Talend Data Inventory
task
データガバナンス
データクオリティとプレパレーション > データの充実化
データクオリティとプレパレーション > データの識別
管理と監視 > 接続の管理

セマンティックタイプはデータのカテゴリー(名前、メール、電話番号など)に該当します。カラムで検出されたセマンティックタイプが目的のものではない場合、経験に応じて事前定義タイプのいずれかに手動で変更できます。

movies_gsgデータセットの場合は、ほとんどのカラムが実際のデータに対応するタイプを割り当てられているサンプルを見ることで理解できます。たとえば、タイトルにはString、公開日にはDate、元の言語にはLanguage code iso2などです。ただし、[popularity] (人気)カラムがgeographical coordinatesとしてマークされており、この特定のコンテキストにおいては正しくありません。データのフォーマット方式は座標の書き込み方と一致せず、タイプがカラムの実際のコンテンツとより一致するように更新することになります。

手順

  1. [popularity] (人気)カラムのヘッダーにあるメニューアイコンをクリックします。
    開いたメニューには、上位のマッチング型(この場合はgeographical coordinates)に加え、TextIntegerDecimalBooleanなどの標準的な型がリスト表示されます。地理的座標タイプが自動的に割り当てられているのは、互換性が99% で、欠けている1%がカラムで唯一の無効な値となるためです。
  2. 利用可能な型のリストからDecimalを選択します。
  3. 上記のステップを繰り返して、[runtime] (上映時間)カラムの型も、より適したDecimalに変更します。

タスクの結果

[popularity] (人気)カラムと[runtime] (上映時間)カラムのセマンティックタイプを変更しました。また、Decimal型が[popularity] (人気)カラム内のデータの100%と一致するため、カラムヘッダー内のクオリティバーはオレンジではなくなりました。