コンポーネントの設定 - 7.2

Text standardization

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント

手順

  1. tFileInputDelimitedコンポーネントをダブルクリックして、[Basic settings] (基本設定)ビューを開きます。
  2. 入力ファイルを参照し、入力ファイルの構造に基づいて基本プロパティを設定します。この例では、入力ファイルにより異なるバリアント形式の英単語のリストがヘッダーなしで提供されます。抽出されたファイルコンテンツを以下に示します。
    computerize
    computerized
    computerizing
    program
    programming
    cooking
    cooked
    cooks
    evaporable
  3. [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックして[Schema] (スキーマ)ダイアログボックスを開き、この例では[Word]という名前の1列を含む入力スキーマを設定します。
    完了したら、[OK]をクリックしてダイアログボックスを閉じます。
  4. tMapコンポーネントをダブルクリックして、マップエディターを開きます。このコンポーネントを使用して、単一カラムの入力フローを2カラムのデータフローにマッピングし、tStemコンポーネントをフィードします。
  5. [+]ボタンをクリックして、出力スキーマに2つのカラムを追加し、それぞれ[Fullform][Stem]を指定します。次に、入力テーブルから[Word]カラムを[Fullform]カラムにドラッグし、次に出力テーブルの[Stem]カラムにドロップします。
    完了したら、[OK]をクリックしてマップエディターを閉じ、変更を次のコンポーネントにプロパゲートさせます。
  6. tStemコンポーネントをダブルクリックして、[Basic settings] (基本設定)ビューを開きます。
  7. [Select Algorithm] (アルゴリズムの選択)テーブルで、入力データから抽出された語幹を含む[Stem]カラムの[Algorithm] (アルゴリズム)フィールドをクリックし、[English] (英語)をアルゴリズム言語として選択します。
  8. tLogRowコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、[Table] (テーブル)オプションを選択して、ジョブの実行結果を読みやすく表示します。