各メッセージ内の無関係な単語の重みを軽くする

各メッセージ内の無関係な単語の重みを軽くする - 7.3

Machine Learning

Version

7.3

Language

日本語

Product

Talend Big Data

Talend Big Data Platform

Talend Data Fabric

Talend Real-Time Big Data Platform

Module

Talend Studio

Content

ジョブデザインと開発 > サードパーティーシステム > 機械学習コンポーネント

データガバナンス > サードパーティーシステム > 機械学習コンポーネント

データクオリティとプレパレーション > サードパーティーシステム > 機械学習コンポーネント

Last publication date

2024-02-22

tf_idfとラベル表示されたtModelEncoderコンポーネントをダブルクリックして、[Component] (コンポーネント)ビューを開きます。この処理で、tModelEncoderは出現頻度が非常に高いものの、出現しているメッセージが多すぎる単語の重みを軽くします。この種の単語は、theのようにテキスト分析に有意な情報をもたらさない場合が多いためです。
Tokenizerとラベル表示されたtModelEncoderに前述の操作を繰り返して、Vector型のsms_tf_idf_vectカラムを出力スキーマに追加し、上の画像に示すように変換を定義します。

この変換では、tModelEncoderは[Inverse Document Frequency] (文献出現頻度の逆数)を使って、5つ以上のメッセージに出現する単語の重みを軽くします。