オントロジーとは?
オントロジーとは、複数のカラム内のデータについて存在し得るコンセプト、属性、および関係を説明するものです。たとえば、[customer]カラムはコンセプトで、生年月日と名前はコンセプトの属性です。オントロジーには、コンセプト、属性、および属性の同義語がリスト表示されます。
Studioにおけるオントロジーの用途
ログサーバーとStudioに保存されているオントロジーリポジトリーを使用すると、分析するデータのタイプにとって最適と見られる分析済みのインジケーターやパターンを再使用することで、知識を共有できます。
Talend Studioは一連のメソッド([regex] (正規表現)、[data dictionary] (データ辞書)、[keyword dictionary] (キーワード辞書))に基づいてカラムの内容を分析し、データがどのカテゴリーに分類されるかを判断します。たとえば、
- user@talend.comのようなデータの場合、Talend Studioは正規表現に基づいて分析し、[EMAILADDRESS] (メールアドレス)であると判定します。
- Johnの場合、Talend Studioはデータ辞書に基づいて分析し、[FIRSTNAME] (名)であると判定します。
- 43 Chester Roadの場合、Talend Studioはデータ文字列内のトークンを辞書内のキーワードに基づいて分析し、RoadをADDRESSLINEであると判定します。
Studioで使用されているオントロジー
オントロジーは、ログサーバー上でUBLとOAGIという異なるビジネス標準をマージして構築されています。
- Universal Business Language (UBL): 既存のXMLビジネスドキュメントライブラリーを1つの汎用ビジネス言語に統合しようとするOASISの取り組みによって作成されました。
- Open Application Group (OAGI): OAGIでは、ビジネスアプリケーション間の通信のための共通コンテンツモデルと共通メッセージが定義されています。
マージの最終結果として、顧客、会社、地理、製品、ファイナンスなど、複数のドメインに適用される412のコンセプトに絞り込まれました。