データカラムのカテゴリーの検討 - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio

このタスクについて

次の例では、顧客情報が保存されたデータベーステーブルを使用します。

手順

  1. [DQ Repository] (DQリポジトリー)ツリービューで[Metadata] (メタデータ)を展開し、分析を行うテーブルに移動します。
  2. テーブルを右クリックして[Semantic-aware Analysis] (セマンティック分析)を選択するか、テーブル内のカラムのセットを右クリックし、[Semantic-aware Analysis] (セマンティック分析)を選択します。

    セマンティックウィザードが開き、テーブルの全てのカラム、または選択したカラムのセットがリストされます。どちらがリストされるかは、分析をテーブルまたはカラムセットのどちらに対して開始したかによります。ウィザードの[Category] (カテゴリー)行は、一致したカラムにセマンティックカテゴリーを割り当てます。

  3. 関連するセクションで[Sampling Options] (サンプリングオプション)を設定します。
    選択またはクリック 内容...
    - 最初のN行

    - レゼボアのサンプリング

    選択したカラムからの最初のNデータレコードをデータプレビューにリストします。[Number of rows] (行数)フィールドにレコード数を設定します。

    選択したカラムからのランダムなNレコードをデータプレビューにリストします。[Number of rows] (行数)フィールドにレコード数を設定します。

    カテゴリー検索のしきい値 分析対象カラムの[Category] (カテゴリー)リストに表示する一致の最小しきい値を決定します。

    このしきい値により、分析対象カラムのうち、頻度の低いカテゴリーがフィルタリングされます。

    更新 設定変更後、データプレビューを更新します。
  4. 一致した各カラムの[Category] (カテゴリー)フィールドから、以下のいずれかの手順に従います。
    • [Category] (カテゴリー)リストからカラムに最適なデータのカテゴリーを選択します。または、
    • コンテンツを最もよく表す意味のあるカラム名を入力します。
  5. カラム名を編集するには、フィールドを2度クリックし、名前を入力し、キーボードのEnterキーを押して変更を保存します。
    入力した名前は別の色で表示されます。この手順により、カラムのカテゴリーとセマンティック名がローカルに保存されます。セマンティック名が見つからない場合でも、カテゴリーは保存されます。
    この処理は必須ではありませんが、ログサーバー上のオントロジーリポジトリに保存されているコンセプトとテーブルメタデータの一致の精度を高めるのに役立ちます。

    提案されたカテゴリの割合は、以下の方法に基づいてカラム内のデータを分析して計算されます: [regex] (正規表現)、[data dictionary] (データディクショナリー)、[keyword dictionary] (キーワードディクショナリー)。ディクショナリーインデックスと正規表現のカテゴリーはStudioに組み込まれており、データがどのカテゴリーに入るかを決定します。

    詳細は、セマンティック分析で使用されるすべての辞書インデックスと正規表現のカテゴリのリストを参照して下さい。

  6. [Next] (次へ)をクリックしてウィザードでページを開くと、カラムメタデータのマッチング結果とオントロジーリポジトリーのコンセプトにおけるセマンティックコンセプトを確認できます。