データカラムのセマンティックカテゴリーを検討 - Cloud

データカラムのセマンティックカテゴリーを検討 - Cloud - 8.0

Talend Studioユーザーガイド

Version

Cloud

8.0

Language

日本語

Product

Talend Big Data

Talend Big Data Platform

Talend Cloud

Talend Data Fabric

Talend Data Integration

Talend Data Management Platform

Talend Data Services Platform

Talend ESB

Talend MDM Platform

Talend Real-Time Big Data Platform

Module

Talend Studio

Content

ジョブデザインと開発

Last publication date

2024-04-16

対象製品...

Big Data Platform

Cloud API Services Platform

Cloud Big Data Platform

Cloud Data Fabric

Cloud Data Management Platform

Data Fabric

Data Management Platform

Data Services Platform

MDM Platform

Real-Time Big Data Platform

このタスクについて

次の例では、顧客情報が保存されたデータベーステーブルを使用します。

手順

[DQ Repository] (DQリポジトリー)ツリービューで[Metadata] (メタデータ)を展開し、分析を行うテーブルに移動します。
テーブルを右クリックして[Semantic-aware Analysis] (セマンティック認識分析)を選択するか、テーブル内のカラムのセットを右クリックし、[Semantic-aware Analysis] (セマンティック認識分析)を選択します。

セマンティックウィザードが開き、テーブルのすべてのカラム、または選択したカラムのセットがリスト表示されます。どちらがリスト表示されるかは、分析をテーブルまたはカラムセットのどちらに対して開始したかによります。ウィザードの[Category] (カテゴリー)行は、一致したカラムにセマンティックカテゴリーを割り当てます。
[Sampling Options] (サンプリングオプション)の設定方法:
- [Sampling Strategy] (サンプリング戦略): データプレビューでリスト表示するものを定義します。[First N Rows] (最初のN行)を選択して最初のN個のデータレコードをリスト表示するか、[Reservoir Sampling] (レゼボアのサンプリング)を選択してN個のランダムレコードをリスト表示させます。次に、[Number of rows] (行数)フィールドでレコード数を設定します。
- [Threshold for category discovery] (カテゴリー検索のしきい値): 分析済みカラムの[Category] (カテゴリー)リストに表示する一致の最小しきい値を決定します。
  このしきい値により、分析済みカラムのうち、頻度の低いカテゴリーがフィルタリングされます。
- [Refresh] (更新): 設定変更後、データプレビューを更新します。
一致した各カラムの[Category] (カテゴリー)フィールドから、以下のいずれかの手順に従います。
- カラムに最適なデータのカテゴリーを[Category] (カテゴリー)リストから選択します。または、
- コンテンツを最もよく表すカラムに意味ある名前を入力します。
カラム名を編集するには、フィールドを2度クリックし、名前を入力し、キーボードのEnterキーを押して変更を保存します。
入力した名前は別の色で表示されます。このステップにより、カラムのカテゴリーとセマンティック名がローカルに保存されます。セマンティック名が見つからない場合でも、カテゴリーは保存されます。

この処理は必須ではありませんが、Elasticsearchサーバーのオントロジーリポジトリーに保存されているコンセプトとテーブルメタデータの一致の精度を高めるのに役立ちます。
提案されたカテゴリーの割合は、以下の方法に対してカラム内のデータを分析して計算されます: [regex] (正規表現)、[data dictionary] (データディクショナリー)、[keyword dictionary] (キーワードディクショナリー)。ディクショナリーインデックスと正規表現のカテゴリーはTalend Studioに組み込まれており、データがどのカテゴリーに入るかを決定します。
[Next] (次へ)をクリックしてウィザードでページを開くと、カラムメタデータのマッチング結果とオントロジーリポジトリーのコンセプトにおけるセマンティックコンセプトを確認できます。