区切り記号付きファイル内で分析するカラムセットの選択 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

手順

  1. [FileDelimited]接続を展開し、分析するカラムのセットを参照します。
  2. 分析するカラムを選択し、[Finish] (終了)をクリックしてこの[New analysis] (新規分析)ウィザードを閉じます。

    定義された分析メタデータとともに分析エディターが開き、新規作成された分析用のフォルダーが[DQ Repository] (DQリポジトリ)ツリービュー内の[Analyses] (分析)の下に表示されます。

    サンプルデータが[Data Preview] (データプレビュー)セクションに表示され、選択したカラムが分析エディターの[Analyzed Column] (分析対象カラム)セクションに表示されます。

  3. 必要に応じて、[Analyzed Columns] (分析対象カラム)ビューの[Connection] (接続)ボックスで他の接続を選択します。このボックスには、Studioで作成されたすべての接続と該当するデータベース名がリスト表示されます。
    デフォルトでは、前の手順で選択した区切り記号付きファイル接続が[Connection] (接続)ボックスに表示されます。
  4. 必要に応じて、[Select columns to analyze] (分析するカラムを選択)リンクをクリックしてダイアログボックスを開き、カラムの選択を変更します。
    注: [Table filter] (テーブルフィルター)フィールドや[Column filter] (カラムフィルター)フィールドに必要なテキストを入力すると、テーブルやカラムのリストをフィルタリングできます。リストには、入力したテキストに対応するテーブルまたはカラムのみ表示されます。
  5. カラムリストで、分析するカラムのチェックボックスを選択して[OK]をクリックし、次の手順に進みます。
    この例では、区切りファイル内の6セットのカラム、つまり口座番号 (account_num)、教育(education)、電子メールアドレス(email)、ファーストネーム(fname)、ラストネーム(lname)、性別(gender)を分析します。行数、重複を除いた一意値の数、重複値の数を識別します。