Studioで使用されているオントロジー - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

オントロジーとは:

オントロジーとは、複数のカラム内のデータについて存在し得るコンセプト、属性、および関係を説明するものです。たとえば、[customer]カラムはコンセプトで、生年月日名前はコンセプトの属性です。オントロジーには、コンセプト、属性、および属性のシノニムがリストされます。

Studioにおけるオントロジーの用途:

ログサーバーとStudioに保存されているオントロジーリポジトリーを使用すると、分析するデータのタイプにとって最適と見られる分析済みのインジケーターやパターンを再使用することで、知識を共有することができます。

Studioは一連のメソッド([regex] (正規表現)、[data dictionary] (データディクショナリー)[keyword dictionary] (キーワードディクショナリー))に基づいてカラムの内容を分析し、データがどのカテゴリに分類されるかを判断します。たとえば、

  • user@talend.comのようなデータの場合、Studioは正規表現に基づいて分析し、[EMAILADDRESS] (電子メールアドレス)であると判定します。

  • Johnの場合、Studioはデータディクショナリーに基づいて分析し、[FIRSTNAME] (名)であると判定します。

  • 43 Chester Roadの場合、Studioはデータ文字列内のトークンをディクショナリー内のキーワードに基づいて分析し、Road[ADDRESSLINE] (住所行)であると判定します。

セマンティックを認識した分析で使用されるすべての辞書インデックスと正規表現のカテゴリのリストは セマンティック分析で使用されるインデックスと正規表現のカテゴリのリスト (https://help.talend.com)でドキュメンテーションを参照して下さい。

Studioで使用されているオントロジー:

オントロジーは、ログサーバー上でUBLとOAGIという異なるビジネス標準をマージして構築されています: UBL and OAGI:

  • Universal Business Language (UBL): 既存のXMLビジネスドキュメントライブラリを1つの汎用ビジネス言語に統合しようとするOASISの取り組みによって作成されました。

  • Open Application Group (OAGI): OAGIでは、ビジネスアプリケーション間の通信のための共通コンテンツモデルと共通メッセージが定義されています。

マージの最終結果として、顧客、会社、地理、製品、ファイナンスなどの複数のドメインに適用される412のコンセプトに絞り込まれました。

オントロジーリポジトリーのコンテンツの詳細は、 オントロジーリポジトリ (https://help.talend.com)のドキュメンテーションを参照して下さい。