データセットトラストスコア - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation

トラストスコアによって、「自分のデータセットの信頼度は?」といった質問に回答しやすくなります。グローバルなこのクオリティ指標は、複数のメトリックを単独かつ理解しやすいスコアに集計し、0~5のスケールで表します。

データセットトラストスコアの増減に影響する諸要因は、主に次の4つの軸に分類できます。

  • [Validity] (妥当性): データセットサンプル全体における有効値と無効値の数、セマンティックタイプの使用などと共にデータセット自体のクオリティを考慮します。
  • [Completeness] (完全性): サンプル内にある空のレコードの数に依存します。
  • [Popularity] (人気度): ユーザーの評価や認証レベルによってデータセットの信頼度を把握できます。
  • [Discoverability] (検索性): 記述、タグ、カスタム属性といった適切なメタデータを使うことで、データセットがドキュメント化されているかが反映されます。ドキュメント化されたデータセットほど見つけやすくなります。

トラストスコアは、これらのパラメーターに影響を与えるアクションが実行されるたびに更新されます。データセットトラストスコアは、Talend Cloud Data PreparationやTalend Cloud Pipeline Designerを使ってデータ自体のクオリティに取り組んだり、Talend Cloud Data Inventoryのソーシャル機能を介して向上させることができます。

データセットトラストスコアは次の場所で見つかります。

  • データセットリストから:

    トラストスコアは一連の盾アイコンで表示され、スコアに応じてその数が増減します。マウスをアイコンに重ねると、正確なスコアが小数点以下2桁までの数値で表示されます。

  • データセット概要から:

    専用のタイルには、データセットのトラストスコア、および4つの軸で構成されるレーダーチャートが表示されます。自分のデータセットに何が欠けているのかが一目でわかるため、より良いスコアが得られます。軸名をクリックするか矢印を使ってナビゲートすると、その軸に対応するメトリクスの説明とスコアの改善方法が表示されます。

  • データセット詳細ビューから:

    データセット上部のヘッダーには、トラストスコアアイコンの簡易版が盾1つと小数点以下2桁までの正確な数値で表示されます。