メタデータの収集 - Cloud

Talend Cloud Data Catalogユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データガバナンス
EnrichPlatform
Talend Data Catalog
メタデータの収集とは、すべてのメタデータをデータソースから集めることです。

メタデータの収集はTalend Cloud Data Catalogブリッジを使って行います。

ブリッジはプラットフォーム専用のコネクターです。特定のドライバーを使ってデータソースシステムに接続し、メタデータを収集します。

次のテーブルでは、メタデータの収集元となるデータソースのタイプを説明しています。このタイプはお使いのエディションによって異なります。
Talend Cloud Data Catalog Standard Advanced Advanced Plus
サポート対象のデータストア技術から収集
サポート対象のデータモデルツールから収集
DI、ETL、ELTツールによるデータ統合
Talend Data IntegrationTalend MDMTalend Data Preparationから収集
サポート対象のデータ統合ツールから収集
SQLスクリプトとその他のコードによるデータ統合
HiveQLスクリプトから収集
サポート対象のSQLスクリプトから収集
ビジネスインテリジェンス(BIレポート)
TableauまたはQlikから収集
サポート対象のビジネスインテリジェンスツールから収集
サポート対象のメタデータ管理ツール(Apache AtlasやCloudera Navigatorなど)から収集
ビジネスアプリケーション
Salesforceから収集
サポート対象のビジネスアプリケーションツール(SAP Business Warehouse 4 HANAなど)から収集

Talend Cloud Data Catalogからはアクセスできないメタデータを収集する必要がある場合、または組み込みの収集エージェントにはないブリッジを使う場合は、オンプレミスのにリモート収集サーバーをインストールします。

Talend Help CenterTalend Cloud Data Catalogブリッジに、Talend Cloud Data Catalogではこのようなブリッジをデフォルトでは利用できない旨を記述しています。

メタデータを収集する前に

抽出が適切に行われるよう、メタデータの収集に先がけて、メタデータがある場所、抽出に必要なテクノロジー、従うべきプロセスを分析することが重要です。

Talend Cloud Data Catalogプロジェクトでメタデータを収集する場合は、特定の順序に従う必要があります。
  • オペレーショナルデータソースなどのソースデータソースを識別する。
  • ETLやELTなどのデータ変換プロセスを識別する。
  • ビジネスインテリジェンスシステムを識別する。
  • 既存の概念モデルを識別する。
  • ブリッジを設定し、各システムのメタデータを収集する。

また、ラベル化されたフォルダー(メタデータの各カテゴリーなど)でメタデータリポジトリーを整理する必要もあります。