Studioで使用されているオントロジー - 7.3

Talend Data Fabric Studio ユーザーガイド

Version
7.3
Language
日本語 (日本)
Product
Talend Data Fabric
Module
Talend Studio
Content
ジョブデザインと開発

オントロジーとは?

オントロジーとは、複数のカラム内のデータについて存在し得るコンセプト、属性、および関係を説明するものです。たとえば、[customer]カラムはコンセプトで、生年月日と名前はコンセプトの属性です。オントロジーには、コンセプト、属性、および属性の同義語がリスト表示されます。

Studioにおけるオントロジーの用途

ログサーバーとStudioに保存されているオントロジーリポジトリーを使用すると、分析するデータのタイプにとって最適と見られる分析済みのインジケーターやパターンを再使用することで、知識を共有できます。

Talend Studioは一連のメソッド([regex] (正規表現)[data dictionary] (データ辞書)[keyword dictionary] (キーワード辞書))に基づいてカラムの内容を分析し、データがどのカテゴリーに分類されるかを判断します。たとえば、

  • user@talend.comのようなデータの場合、Talend Studioは正規表現に基づいて分析し、[EMAILADDRESS] (メールアドレス)であると判定します。
  • Johnの場合、Talend Studioはデータ辞書に基づいて分析し、[FIRSTNAME] (名)であると判定します。
  • 43 Chester Roadの場合、Talend Studioはデータ文字列内のトークンを辞書内のキーワードに基づいて分析し、RoadADDRESSLINEであると判定します。

Studioで使用されているオントロジー

オントロジーは、ログサーバー上でUBLとOAGIという異なるビジネス標準をマージして構築されています。

  • Universal Business Language (UBL): 既存のXMLビジネスドキュメントライブラリーを1つの汎用ビジネス言語に統合しようとするOASISの取り組みによって作成されました。
  • Open Application Group (OAGI): OAGIでは、ビジネスアプリケーション間の通信のための共通コンテンツモデルと共通メッセージが定義されています。

マージの最終結果として、顧客、会社、地理、製品、ファイナンスなど、複数のドメインに適用される412のコンセプトに絞り込まれました。