データを標準化するための解析ルールを定義する - 7.3

Standardization

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化

手順

  1. tStandardizeRowコンポーネントをダブルクリックして、[Basic settings] (基本設定)ビューを開きます。
    このコンポーネントは、非構造化入力フローの標準化に必要なルールを定義し、ブランド、範囲、色、および単位をXML形式で生成するのに役立ちます。
  2. [Column to parse] (解析するカラム)リストから、Long_Descriptionを選択します。
  3. [Standardize this field] (このフィールドの標準化)チェックボックスをオンにします。
  4. ルールを次のように定義します。
    1. [Conversion rules] (変換ルール)テーブルで[+]ボタンをクリックして、ルールの定義に必要なカラムを追加します。

      このシナリオでは、[Index] (インデックス)タイプのルールに焦点を当てています。上記のキャプチャーで定義されている他のルールタイプの詳細な例については、他のtStandardizeRowシナリオを参照してください。

    2. ブランド範囲色の3つのルールを定義します。
    3. [Type] (タイプ)リストから[Index] (インデックス)を選択し、[Value] (値)フィールドに、生成したインデックスのコンテキスト変数を入力します。
      コンテキスト変数の作成方法と使用方法は、 Talend Studioユーザーガイドを参照してください。
    4. [Search mode] (検索モード)リストから、[Match exact] (完全一致)を選択します。検索モードは[Index] (インデックス)ルールにのみ適用されます。

      [Match exact] (完全一致)モードを使って、tSynonymOutputコンポーネントで生成したブランド、範囲、および色のインデックス文字列に完全に一致する文字列のみを入力フローから抽出します。利用可能な検索モードの詳細は、インデックスルールの検索モードを参照してください。

  5. [Generate parser code in Routines] (ルーチン上の分析コードを生成する)ボタンをクリックして、 Profiling パースペクティブの[DQ Repository] (DQリポジトリー)ツリービューにある[Routines] (ルーチン)フォルダーの下にコードを生成します。
    このステップは必須です。このステップを行わないとジョブは実行されません。
  6. [Advanced settings] (詳細設定)ビューで、[Output format] (出力形式)エリアでデフォルトで選択されているオプションをそのまま使います。
    [Max edits for fuzzy match] (ファジーマッチの最大編集)は、デフォルトで1に設定されています。
  7. tLogRowコンポーネントをダブルクリックし、[Basic settings] (基本設定)ビューでコンポーネント設定を定義します。
  8. [Mode] (モード)エリアで、[Table (print values in cells of a table)] (テーブル(テーブルのセルの出力値))オプションを選択します。
    このコンポーネントは、分析できず、どのインデックス文字列とも一致しなかった入力フローからのトークンを表示します。