データクオリティのチェック - Cloud

Snowflake版Talend Cloud Data Inventory入門ガイド

Version
Cloud
Language
日本語 (日本)
Product
Talend Cloud
Module
Talend Data Inventory
Talend Data Preparation
Talend Pipeline Designer
Content
データガバナンス

[Overview] (概要)ページからデータセットの大まかなクオリティを把握することはできましたが、より精密なインジケーターを見ることもできるようになりました。

[Data quality] (データクオリティ)タイルを表示している時に、データセットレベルでクオリティを把握できましたが、データセットの[Sample] (サンプル)にアクセスしてレコードレベルのクオリティを確認できるようになりました。

アプリケーションでは、カラムで自動検出されたセマンティックに基づき、次のカラーコードを使用してデータを空、有効、無効のいずれかに分類できます。

  • 緑はカラムの形式に一致するデータです。
  • オレンジはカラムの形式に一致しないデータです。
  • 黒は空のセルです。

手順

  1. 左パネルのメニューから[Sample] (サンプル)アイコンをクリックします。
    データセットがグリッド形式で開き、最初の10,000行が表形式で表示されます。サンプルではデフォルトでグリッドビューかJDBCファイルが表示されますが、他のファイルタイプや環境設定によっては、サンプルを階層ビュー、またはロウビューで表示できるオプションもあります。
  2. データセットの上のヘッダーには、データセット全体にわたる無効な値、空の値、有効な値の再区分を示す概要と同じ円グラフもあります。
  3. 各カラムのヘッダーをご覧ください。
    データセットのグリッドビューを使用する場合、各カラムヘッダーにクオリティバーが統合されます。ここに表示される統計は、それぞれ特定のカラムに適用されます。
  4. カラムのクオリティバーの各カラーにマウスを合わせると、そのカラムの詳細な統計が表示されます。

    この例のカラムには、検出されたセマンティックタイプと一致しないセルがX個、空のセルがX個、有効なセルがX個含まれていることがわかります。グリッドビューでは、無効な値を含むセルは左側の境界線がオレンジ色で表示されます。

    カラムのセマンティックタイプはいつでも変更可能で、それによってカラムのコンテンツの一致度を高めて無効値の数を減らすことができます。

タスクの結果

データセット全体、および各カラムにおける、空のレコード、無効なレコード、有効なレコードの再区分を確認しました。