Talend Cloud Data Inventoryの中心概念 - Cloud

Talend Cloud Data Inventory入門ガイド

EnrichVersion
Cloud
EnrichProdName
Talend Cloud
EnrichPlatform
Talend Data Inventory
task
データガバナンス
データクオリティとプレパレーション > データの充実化
データクオリティとプレパレーション > データの識別
管理と監視 > 接続の管理

このシナリオで使用されるTalend Cloud Data Inventoryの中心となる概念は次のとおりです。

  • [Connection] (接続): 接続とは、データベース、ファイルシステム、分散システム、プラットフォームなど、データセットが保管されている環境またはシステムのことです。システムの接続は一度セットアップすれば再利用できます。
  • データセット: データセットとはデータのコレクションのことです。データベーステーブル、ファイル名、トピック(Kafka)、ファイルパス(HDFS)などを指定できます。また、手動で入力してテストデータセットを作成し、テスト接続に保管すること、さらにはローカルファイルをデータセットとしてインポートすることもできます。複数のデータセットを同じシステムに接続し(1対多接続)、再利用可能な接続で保管できます。
  • [Sample] (サンプル): お使いのデータはサンプルの形式で表示され、データセットメタデータから取得されます。
  • [Semantic type] (セマンティックタイプ): カラムやレコードのセマンティックタイプは、その内部で見つかるデータのタイプ(名前、ZIPコード、電話番号、座標など)に該当します。Talend Cloudアプリケーションはすべてセマンティック認識を活用できます。そのため、サンプルデータはデフォルトのセマンティックタイプや自分で作成したセマンティックタイプで自動的に分類されます。
  • Talend Trust Score: 複数のメトリックを1つのスコアに集計し、0~5のスケールで表すグローバルなクオリティ指標です。
  • [Tag] (タグ): タグはポストイットを貼り付けるような要領でデータセットに適用でき、テキストをメタデータ情報としてTalend Cloud Data Inventoryオブジェクトに自由に追加できます。
  • [Custom attributes] (カスタム属性): カスタム属性はデータセットに適用できます。そのため、事前定義済みルールセットに続いてメタデータ情報を追加したり、データベースの検索やソートに役立てたりできます。