前処理プロセスの設定 - 7.2

Text standardization

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント

手順

  1. tNormalizeをダブルクリックして、[Basic settings] (基本設定)ビューを表示し、コンポーネントのプロパティを定義します。
  2. [Column to normalize] (正規化するカラム)リストから、[translation] (変換)を選択します。
    これにより、[translation] (変換)カラムのデータ文字列が単語に分割されます。
  3. [Item separator] (アイテム区切り)フィールドに、[translation] (変換)カラムのデータを区切るセパレーター(この例ではスペース)を入力します。
  4. tFilterRowをダブルクリックして、[Basic settings] (基本設定)ビューを表示し、コンポーネントのプロパティを定義します。
  5. 論理演算子を選択して、単純なフィルタリングと詳細モードを組み合わせます。
  6. [Conditions] (条件)エリアで、[+]ボタンをクリックして、1つ以上の条件を出力フローに追加します。次に、対応するテーブルカラムで以下のように操作します:
    • 操作する入力カラムを選択します。

    • リストから必要な関数を選択します。

    • 入力カラムで値をバインドする演算子を選択します。

    • コンテンツフィルタリングの値を入力します。

      この例では、[translation] (変換)カラムの3文字未満のすべての単語のフィルタリング処理を行います。