Talend Studioで使用されているオントロジー - Cloud - 8.0

Talend Studioユーザーガイド

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
Last publication date
2024-03-28
対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

オントロジーとは?

オントロジーとは、複数のカラムにあるデータについて存在し得るコンセプト、属性、関係を説明するものです。たとえば顧客のカラムはコンセプトで、生年月日と名前はそのコンセプトの属性です。オントロジーには、コンセプト、属性、属性のシノニムがリスト表示されます。

Talend Studioにおけるオントロジーの用途

Talend Studioを伴うElasticsearchサーバーに保存されているオントロジーリポジトリーを使えば、分析するデータのタイプにとって最適と思われる分析済みインジケーターやパターンを再使用することで、知識を共有できるようになります。

Talend Studioは一連のメソッド([regex] (正規表現)[data dictionary] (データディクショナリー)[keyword dictionary] (キーワードディクショナリー))に基づいてカラムの内容を分析し、データがどのカテゴリーに分類されるかを判断します。たとえば、

  • user@talend.comのようなデータの場合、Talend Studioは正規表現に対して分析し、[EMAILADDRESS] (メールアドレス)であると判定します。
  • Johnの場合、Talend Studioはデータディクショナリーに対して分析し、[FIRSTNAME] (名)であると判定します。
  • 43 Chester Roadの場合、Talend Studioはデータ文字列内のトークンをディクショナリー内のキーワードに対して分析し、RoadADDRESSLINEであると判定します。

Talend Studioで使用されているオントロジー

異なるビジネス標準(UBLとOAGI)をマージすることで、Elasticsearchサーバーでオントロジーがビルドされます。

  • Universal Business Language (UBL): 既存のXMLビジネスドキュメントライブラリーを1つのジェネリックビジネス言語に統合しようとするOASISの取り組みによって作成されました。
  • Open Application Group (OAGI): OAGIでは、ビジネスアプリケーション間の通信のための共通コンテンツモデルと共通メッセージが定義されています。

マージの最終結果として、顧客、会社、地理、製品、ファイナンスなど、複数のドメインに適用される412のコンセプトに絞り込まれました。