Talend Cloud Data Inventoryの概念 - Cloud

Talend Cloud Data Inventoryユーザーガイド

Version
Cloud
Language
日本語 (日本)
Product
Talend Cloud
Module
Talend Data Inventory
Content
データガバナンス
データクオリティとプレパレーション > データの充実化
データクオリティとプレパレーション > データの識別
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理

これらの定義について学習すれば、Talend Cloud Data Inventoryの主な概念を理解しやすくなります。

  • 接続: 接続とは、データベース、ファイルシステム、分散システム、プラットフォームなど、データセットが保管されている環境またはシステムのことです。システムの接続は一度セットアップすれば再利用できます。
  • データセット: データセットとはデータのコレクションのことです。データベーステーブル、ファイル名、トピック(Kafka)、ファイルパス(HDFS)などを指定できます。また、手動で入力してテストデータセットを作成し、テスト接続に保管すること、さらにはローカルファイルをデータセットとしてインポートすることもできます。複数のデータセットを同じシステムに接続し(1対多接続)、再利用可能な接続で保管できます。
  • [Sample] (サンプル): お使いのデータはサンプルの形式で表示され、データセットメタデータから取得されます。
  • [Semantic type] (セマンティックタイプ): カラムやレコードのセマンティックタイプは、その内部で見つかるデータのタイプ(名前、ZIPコード、電話番号、座標など)に該当します。Talend Cloudアプリケーションはすべてセマンティック認識を活用できます。そのため、サンプルデータはデフォルトのセマンティックタイプや自分で作成したセマンティックタイプで自動的に分類されます。
  • Talend Trust Score: 複数のメトリックを1つのスコアに集計し、0~5のスケールで表すグローバルなクオリティ指標です。
  • [Custom attributes] (カスタム属性): カスタム属性はデータセットに適用できます。そのため、事前定義済みルールセットに続いてメタデータ情報を追加したり、データベースの検索やソートに役立てたりできます。
  • タグ: 2番目の方法であるタグ付けは、どのようなテキストでもメタデータ情報として付箋紙のように自在にTalend Cloudオブジェクトへ追加できます。
  • Cloud Engine: ユーザーが処理エンジンを設定しなくても簡単にデータを処理できるようにする組み込みランナーです。このエンジンを使用すると、2つのオブジェクトを並行して実行できます。データの高度な処理のため、セキュアなRemote Engineをインストールすることをお勧めします。
  • Remote Engine: パイプラインを安全に実行できる、セキュアな実行エンジンのことです。独自の環境(仮想プライベートクラウドまたはオンプレミス)でエンジンを作成して設定し、実行環境とリソースを制御できます。

    Remote Engineの特長:

    • Talendがパイプラインのデータやリソースにアクセスできないため、安全かつセキュアな環境でのデータ処理が可能です。
    • 大量のデータを移動させて計算するのではなくデータの局所性を高めることで、最適なパフォーマンスを実現します。
接続、データセット、その他のエンティティの間の関係

接続メタデータからデータが取得され、サンプルとして視覚化できます。そこから、Talend Cloud Data PreparationまたはTalend Cloud Pipeline Designerのような他のツールを使用して、データをさらに変換できます。