データのクオリティインジケーターをチェック - Cloud

Talend Cloud Data Inventory入門ガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Inventory
Content
データガバナンス
データクオリティとプレパレーション > データの充実化
データクオリティとプレパレーション > データの識別
管理と監視 > 接続の管理
Last publication date
2024-03-21

[Overview] (概要)ページからデータセットの大まかなクオリティを把握することはできましたが、より精密なインジケーターを見ることもできるようになりました。

[Data quality] (データクオリティ)タイルを表示している時に、データセットレベルでクオリティを把握できましたが、データセットの[Sample] (サンプル)にアクセスしてレコードレベルのクオリティを確認できるようになりました。

アプリケーションでは、カラムで自動検出されたセマンティックに基づき、次のカラーコードを使用してデータを空、有効、無効のいずれかに分類できます。

  • 緑はカラムの形式に一致するデータです。
  • 赤はカラムの形式に一致しないデータです
  • 黒は空のセルです。

手順

  1. 左パネルのメニューから[Sample] (サンプル)アイコンをクリックします。
    データセットがグリッド形式で開き、100行すべてが表形式で表示されます。Talend Cloud Data Inventoryにおけるサンプルの最大サイズは10,000レコードです。サンプルではデフォルトでグリッドビューまたは.csvファイルが表示されますが、他のファイルタイプの場合、あるいは環境設定によっては、サンプルを階層ビュー、またはロウビューで表示するオプションもあります。
    データセットのサンプル。
  2. データセットの上のヘッダーには、データセット全体にわたる無効な値、空の値、有効な値の再区分を示す概要と同じ円グラフもあります。
    データセット上部のヘッダー。
  3. 各カラムのヘッダーをご覧ください。
    データセットのグリッドビューを使用する場合、各カラムヘッダーにクオリティバーが統合されます。ここに表示される統計は、それぞれ特定のカラムに適用されます。
  4. production_countryカラムのクオリティバーの各カラーにマウスを合わせると、そのカラムの詳細な統計が表示されます。
    クオリティバーの緑の部分にポインターを置くと91%の値が有効であることが示される。
    このカラムには、Country セマンティックタイプに一致しないセルが8つ、空のセルが1つ、有効なセルが91含まれていることがわかります。グリッドビューでは、無効な値を含むセルは左側の境界線が赤で表示されます。

タスクの結果

データセット全体、および各カラムにおける、空のレコード、無効なレコード、有効なレコードの再区分を確認しました。ほとんどのカラムには空のエントリーが少なくともいくつか含まれていますが、[popularity] (人気)production_countryoriginal_languageのみには、無効な値も含まれています。これらのいずれかのカラムで、セマンティックタイプを原因とするクオリティの問題が発生する可能性があります。