対象製品...
Big Data Platform
Cloud API Services Platform
Cloud Big Data Platform
Cloud Data Fabric
Cloud Data Management Platform
Data Fabric
Data Management Platform
Data Services Platform
MDM Platform
Real-Time Big Data Platform
このタスクについて
手順
- [DQ Repository] (DQリポジトリー)ツリービューで[Metadata] (メタデータ)を展開し、分析を行うテーブルに移動します。
-
テーブルを右クリックして[Semantic-aware Analysis] (セマンティック認識分析)を選択するか、テーブル内のカラムのセットを右クリックし、[Semantic-aware Analysis] (セマンティック認識分析)を選択します。
セマンティックウィザードが開き、テーブルのすべてのカラム、または選択したカラムのセットがリスト表示されます。どちらがリスト表示されるかは、分析をテーブルまたはカラムセットのどちらに対して開始したかによります。ウィザードの[Category] (カテゴリー)行は、一致したカラムにセマンティックカテゴリーを割り当てます。
-
[Sampling Options] (サンプリングオプション)の設定方法:
- [Sampling Strategy] (サンプリング戦略): データプレビューでリスト表示するものを定義します。[First N Rows] (最初のN行)を選択して最初のN個のデータレコードをリスト表示するか、[Reservoir Sampling] (レゼボアのサンプリング)を選択してN個のランダムレコードをリスト表示させます。次に、[Number of rows] (行数)フィールドでレコード数を設定します。
- [Threshold for category discovery] (カテゴリー検索のしきい値): 分析済みカラムの[Category] (カテゴリー)リストに表示する一致の最小しきい値を決定します。
このしきい値により、分析済みカラムのうち、頻度の低いカテゴリーがフィルタリングされます。
- [Refresh] (更新): 設定変更後、データプレビューを更新します。
-
一致した各カラムの[Category] (カテゴリー)フィールドから、以下のいずれかの手順に従います。
- カラムに最適なデータのカテゴリーを[Category] (カテゴリー)リストから選択します。または、
- コンテンツを最もよく表すカラムに意味ある名前を入力します。
-
カラム名を編集するには、フィールドを2度クリックし、名前を入力し、キーボードのEnterキーを押して変更を保存します。
入力した名前は別の色で表示されます。このステップにより、カラムのカテゴリーとセマンティック名がローカルに保存されます。セマンティック名が見つからない場合でも、カテゴリーは保存されます。この処理は必須ではありませんが、Elasticsearchサーバーのオントロジーリポジトリーに保存されているコンセプトとテーブルメタデータの一致の精度を高めるのに役立ちます。
提案されたカテゴリーの割合は、以下の方法に対してカラム内のデータを分析して計算されます: [regex] (正規表現)、[data dictionary] (データディクショナリー)、[keyword dictionary] (キーワードディクショナリー)。ディクショナリーインデックスと正規表現のカテゴリーはTalend Studioに組み込まれており、データがどのカテゴリーに入るかを決定します。
- [Next] (次へ)をクリックしてウィザードでページを開くと、カラムメタデータのマッチング結果とオントロジーリポジトリーのコンセプトにおけるセマンティックコンセプトを確認できます。