データカラムのカテゴリの検討 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

このタスクについて

次の例では、顧客情報が保存されたデータベーステーブルを使用します。

手順

  1. [DQ Repository] (DQリポジトリ)ツリービューで[Metadata] (メタデータ)を展開し、分析を行うテーブルに移動します。
  2. テーブルを右クリックして[Semantic-aware Analysis] (セマンティックを認識した分析)を選択するか、テーブル内のカラムのセットを右クリックし、[Semantic-aware Analysis] (セマンティックを認識した分析)を選択します。
    セマンティックウィザードが開き、テーブルのすべてのカラム、または選択したカラムのセットがリストされます。どちらがリストされるかは、分析をテーブルまたはカラムセットのどちらに対して開始したかによります。ウィザードの[Category] (カテゴリ)行は、一致したカラムにセマンティックカテゴリを割り当てます。
  3. [Sampling Options] (サンプリングオプション)セクションで、次の手順に従います。

    選択/クリック

    目的

    - 最初のN行

    - レゼボアのサンプリング

    - 選択したカラムからの最初のNデータレコードをデータプレビューにリストします。[Number of rows] (行数)フィールドにレコード数を設定します。

    - 選択したカラムからのランダムなNレコードをデータプレビューにリストします。[Number of rows] (行数)フィールドにレコード数を設定します。

    カテゴリ検索のスレッショルド

    分析対象カラムの[Category] (カテゴリ)リストに表示する一致の最小スレッショルドを決定します。

    このスレッショルドにより、分析対象カラムのうち、頻度の低いカテゴリがフィルタリングされます。

    更新

    設定変更後、データプレビューを更新します。

  4. 一致した各カラムの[Category] (カテゴリ)フィールドから、以下のいずれかの手順に従います。
    • [Category] (カテゴリ)リストからカラムに最適なデータのカテゴリを選択します。または、

    • コンテンツを最もよく表す意味のあるカラム名を入力します。

      そのためには、フィールドを2度クリックし、名前を入力し、キーボードのEnterキーを押して変更を保存します。入力した名前は別の色で表示されます。この手順により、カラムのカテゴリとセマンティック名がローカルに保存されます。セマンティック名が見つからない場合でも、カテゴリは保存されます。

    この処理は必須ではありませんが、ログサーバー上のオントロジーリポジトリに保存されているコンセプトとテーブルメタデータの一致の精度を高めるのに役立ちます。
    提案されたカテゴリの割合は、以下の方法に基づいてカラム内のデータを分析して計算されます: [regex] (正規表現)、[data dictionary] (データ辞書)、[keyword dictionary] (キーワード辞書)。 辞書インデックスと正規表現のカテゴリはStudioに組み込まれており、データがどのカテゴリに入るかを決定します。
    セマンティックを認識した分析で使用されるすべての辞書インデックスと正規表現のカテゴリのリストは、 List of the indexes and regex categories used in the Semantic-aware analysis (https://help.talend.com)でドキュメンテーションを参照して下さい。
  5. [Next] (次へ)をクリックしてウィザード内でページを開くと、カラムのメタデータおよびセマンティックコンセプトとオントロジーリポジトリ内のコンセプトとの一致結果を確認できます。