メタデータを収集 - Cloud

Talend Cloud Data Catalogユーザーガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Catalog
Content
データガバナンス
Last publication date
2023-11-13
メタデータの収集とは、すべてのメタデータをデータソースから集めることです。

メタデータの収集はTalend Cloud Data Catalogブリッジを使って行います。

ブリッジはプラットフォーム専用のコネクターです。特定のドライバーを使ってデータソースシステムに接続し、メタデータを収集します。

次のテーブルでは、メタデータの収集元となるデータソースのタイプを説明しています。このタイプはお使いのエディションによって異なります。
Talend Cloud Data Catalog Standard Advanced Advanced Plus
サポート対象のデータストア技術から収集
サポート対象のデータモデルツールから収集
DI、ETL、ELTツールによるデータインテグレーション
Talend Data IntegrationTalend MDMTalend Data Preparationから収集
サポート対象のデータインテグレーションツールから収集
SQLスクリプトとその他のコードによるデータインテグレーション
HiveQLスクリプトから収集
サポート対象のSQLスクリプトから収集
ビジネスインテリジェンス(BIレポート)
TableauまたはQlikから収集
サポート対象のビジネスインテリジェンスツールから収集
サポート対象のメタデータ管理ツール(Apache AtlasやCloudera Navigatorなど)から収集
ビジネスアプリケーション
Salesforceから収集
サポート対象のビジネスアプリケーションツール(SAP Business Warehouse 4 HANAなど)から収集

Talend Cloud Data Catalogからはアクセスできないメタデータを収集する必要がある場合、または組み込みの収集エージェントにはないブリッジを使う場合は、オンプレミスのにリモート収集サーバーをインストールします。

Talend Help CenterTalend Cloud Data Catalogブリッジに、Talend Cloud Data Catalogではこのようなブリッジをデフォルトで利用できない旨を記述しています。

メタデータを収集する前に

抽出が適切に行われるよう、メタデータの収集に先がけて、メタデータがある場所、抽出に必要なテクノロジー、従うべきプロセスを分析することが重要です。

外部形式のメタデータソースに対して適切な接続があることを確認します。

補助的リソースに完全にアクセスできることを確認します。このリソースは接続先とする外部形式よって異なります。

Talend Cloud Data Catalogプロジェクトでメタデータを収集する場合は、特定の順序に従う必要があります。
  • オペレーショナルデータソースなどのソースデータソースを識別する。
  • ETLやELTなどのデータ変換プロセスを識別する。
  • ビジネスインテリジェンスシステムを識別する。
  • 既存の概念モデルを識別する。
  • ブリッジを設定し、各システムのメタデータを収集する。

また、ラベル化されたフォルダー(メタデータの各カテゴリーなど)でメタデータリポジトリーを整理する必要もあります。

ファイルシステムを参照

多くのインポート操作ではアプリケーションサーバーのファイルをポイントする必要があります。

Talend Cloud Data Catalogを設定する場合は、参照リストに含めるファイルシステムの正確なロケーションを指定することが必要です。

インポート済みモデルとカスタムモデル

リポジトリーには次の2種類のモデルがあります。
  • インポートされたモデルは、モデル収集プロセスを通じて入力されるインポートブリッジに関連付けられているモデルです。これらのモデルはテクニカルモデルと呼ばれます。ビジネスアプリケーションやビジネスインテリジェンス(BI)ツールからインポートされた場合は、ビジネスモデルであるとも考えられます。
  • カスタムモデルは、メタモデル内のカスタムモデルタイプをインスタンス化したものです。これらはビジネスモデルと呼ばれます。ドメインによってはテクニカルモデルと呼ばれることもあります。