データのクオリティインジケーターをチェック - Cloud

Talend Cloud Data Inventory入門ガイド

EnrichVersion
Cloud
EnrichProdName
Talend Cloud
EnrichPlatform
Talend Data Inventory
task
データガバナンス
データクオリティとプレパレーション > データの充実化
データクオリティとプレパレーション > データの識別
管理と監視 > 接続の管理

[Overview] (概要)ページからデータセットの大まかなクオリティを把握することはできましたが、より精密なインジケーターを見ることもできるようになりました。

[Data quality] (データクオリティ)タイルを表示している時に、データセットレベルでクオリティを把握できましたが、データセットの[Sample] (サンプル)にアクセスしてレコードレベルのクオリティを確認できるようになりました。

アプリケーションでは、カラムで自動検出されたセマンティックに基づき、次のカラーコードを使用してデータを空、有効、無効のいずれかに分類できます。

  • 緑はカラムの形式に一致するデータです。
  • オレンジはカラムの形式に一致しないデータです。
  • 黒は空のセルです。

手順

  1. 左パネルのメニューから[Sample] (サンプル)アイコンをクリックします。
    データセットがグリッド形式で開き、100行すべてが表形式で表示されます。Talend Cloud Data Inventoryにおけるサンプルの最大サイズは10,000レコードです。サンプルではデフォルトでグリッドビューまたは.csvファイルが表示されますが、他のファイルタイプの場合、あるいは環境設定によっては、サンプルを階層ビュー、またはロウビューで表示するオプションもあります。
  2. データセットの上のヘッダーには、データセット全体にわたる無効な値、空の値、有効な値の再区分を示す概要と同じ円グラフもあります。
  3. 各カラムのヘッダーをご覧ください。
    データセットのグリッドビューを使用する場合、各カラムヘッダーにクオリティバーが統合されます。ここに表示される統計は、それぞれ特定のカラムに適用されます。
  4. production_countryカラムのクオリティバーの各カラーにマウスを合わせると、そのカラムの詳細な統計が表示されます。
    このカラムには、Country セマンティックタイプに一致しないセルが8つ、空のセルが1つ、有効なセルが91含まれていることがわかります。グリッドビューでは、無効な値を含むセルは左側の境界線がオレンジ色で表示されます。

タスクの結果

データセット全体、および各カラムにおける、空のレコード、無効なレコード、有効なレコードの再区分を確認しました。ほとんどのカラムには空のエントリーが少なくともいくつか含まれていますが、[popularity] (人気)production_countryoriginal_languageのみには、無効な値も含まれています。これらのいずれかのカラムで、セマンティックタイプを原因とするクオリティの問題が発生する可能性があります。