[Overview] (概要)ページからデータセットの大まかなクオリティを把握することはできましたが、より精密なインジケーターを見ることもできるようになりました。
[Data quality] (データクオリティ)タイルを表示している時に、データセットレベルでクオリティを把握できましたが、データセットの[Sample] (サンプル)にアクセスしてレコードレベルのクオリティを確認できるようになりました。
アプリケーションでは、カラムで自動検出されたセマンティックに基づき、次のカラーコードを使用してデータを空、有効、無効のいずれかに分類できます。
- 緑はカラムの形式に一致するデータです。
- 赤はカラムの形式に一致しないデータです
- 黒は空のセルです。
手順
-
左パネルのメニューから[Sample] (サンプル)アイコンをクリックします。
データセットがグリッド形式で開き、100行すべてが表形式で表示されます。
Talend Cloud Data Inventoryにおけるサンプルの最大サイズは10,000レコードです。サンプルではデフォルトでグリッドビューまたは
.csvファイルが表示されますが、他のファイルタイプの場合、あるいは環境設定によっては、サンプルを階層ビュー、またはロウビューで表示するオプションもあります。
-
データセットの上のヘッダーには、データセット全体にわたる無効な値、空の値、有効な値の再区分を示す概要と同じ円グラフもあります。
-
各カラムのヘッダーをご覧ください。
データセットのグリッドビューを使用する場合、各カラムヘッダーにクオリティバーが統合されます。ここに表示される統計は、それぞれ特定のカラムに適用されます。
-
production_countryカラムのクオリティバーの各カラーにマウスを合わせると、そのカラムの詳細な統計が表示されます。
このカラムには、
Country
セマンティックタイプに一致しないセルが8つ、空のセルが1つ、有効なセルが91含まれていることがわかります。グリッドビューでは、無効な値を含むセルは左側の境界線が赤で表示されます。
タスクの結果
データセット全体、および各カラムにおける、空のレコード、無効なレコード、有効なレコードの再区分を確認しました。ほとんどのカラムには空のエントリーが少なくともいくつか含まれていますが、
[popularity] (人気)、
production_country、
original_languageのみには、無効な値も含まれています。これらのいずれかのカラムで、セマンティックタイプを原因とするクオリティの問題が発生する可能性があります。