Studioで使用されているオントロジー - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio

オントロジーとは?

オントロジーとは、複数のカラム内のデータについて存在し得るコンセプト、属性、および関係を説明するものです。たとえば、[customer]カラムはコンセプトで、生年月日と名前はコンセプトの属性です。オントロジーには、コンセプト、属性、および属性のシノニムがリストされます。

Studioにおけるオントロジーの用途

ログサーバーとStudioに保存されているオントロジーリポジトリを使用すると、分析するデータのタイプにとって最適と見られる分析済みのインジケーターやパターンを再使用することで、知識を共有することができます。

Talend Studioは一連のメソッド([regex] (正規表現)[data dictionary] (データ辞書)[keyword dictionary] (キーワード辞書))に基づいてカラムの内容を分析し、データがどのカテゴリーに分類されるかを判断します。たとえば、

  • user@talend.comのようなデータの場合、Talend Studioは正規表現に基づいて分析し、[EMAILADDRESS] (電子メールアドレス)であると判定します。
  • Johnの場合、Talend Studioはデータ辞書に基づいて分析し、[FIRSTNAME] (名)であると判定します。
  • 43 Chester Roadの場合、Talend Studioはデータ文字列内のトークンを辞書内のキーワードに基づいて分析し、RoadADDRESSLINEであると判定します。

セマンティック分析で使用されるすべての辞書インデックスと正規表現のカテゴリーのリストは、セマンティック分析で使用されるインデックスと正規表現のカテゴリのリストを参照して下さい。

Studioで使用されているオントロジー

オントロジーは、ログサーバー上でUBLとOAGIという異なるビジネス標準をマージして構築されています。

  • Universal Business Language (UBL): 既存のXMLビジネスドキュメントライブラリを1つの汎用ビジネス言語に統合しようとするOASISの取り組みによって作成されました。
  • Open Application Group (OAGI): OAGIでは、ビジネスアプリケーション間の通信のための共通コンテンツモデルと共通メッセージが定義されています。

マージの最終結果として、顧客、会社、地理、製品、ファイナンスなどの複数のドメインに適用される412のコンセプトに絞り込まれました。

オントロジーリポジトリーのコンテンツについては、 The ontology repositoryを参照してください。