メッセージを単語に変換する - 7.2

Machine Learning

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント
データガバナンス > サードパーティーシステム > 機械学習コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント

手順

  1. [Tokenize] (トークン化)とラベル表示されたtModelEncoderコンポーネントをダブルクリックして、[Component] (コンポーネント)ビューを開きます。このコンポーネントは、SMSメッセージを単語にトークン化します。
  2. [Sync columns] (カラムを同期)をクリックして、先行のコンポーネントからスキーマを取得します。
  3. [Edit schema] (スキーマを編集)の横の[...]ボタンをクリックし、スキーマエディターを開きます。
  4. 出力側で[+]ボタンをクリックして1行を追加し、[Column] (カラム)カラムで名前をsms_tokenizer_wordsに変更します。このカラムは、トークン化されたメッセージを保持するために使われます。
  5. [Type] (タイプ)カラムで、このsms_tokenizer_words行に[Object] (オブジェクト)を選択します。
  6. [OK]をクリックして、これらの変更を検証します。
  7. [Transformations] (変換)テーブルで[+]ボタンをクリックして1行を追加し、次の手順を実行します。
    1. [Input column] (入力カラム)カラムで、機能に変換するデータを提供するカラムを選択します。このシナリオではsms_contentsです。
    2. [Output column] (出力カラム)カラムで、機能を持つカラムを選択します。このシナリオではsms_tokenizer_wordsです。
    3. [Transformation] (変換)カラムで、変換に使うアルゴリズムを選択します。このシナリオではRegex tokenizerです。
    4. [Parameters] (パラメーター)カラムに、選択したアルゴリズムで使うためにカスタマイズするパラメーターを入力します。このシナリオではpattern=\\W;minTokenLength=3です。

タスクの結果

tModelEncoderはこの変換を使って、各入力メッセージをホワイトスペースで分割し、少なくとも3文字を含む単語のみを選択し、変換の結果をsms_tokenizer_wordsカラムに入力します。したがって、通貨記号、数値、句読点、およびaantoなどの単語はこのカラムから除外されます。