手順
-
[Tokenize] (トークン化)とラベル表示されたtModelEncoderコンポーネントをダブルクリックして、[Component] (コンポーネント)ビューを開きます。このコンポーネントは、SMSメッセージを単語にトークン化します。
- [Sync columns] (カラムを同期)をクリックして、先行のコンポーネントからスキーマを取得します。
- [Edit schema] (スキーマを編集)の横にある[...]ボタンをクリックし、スキーマエディターを開きます。
-
出力側で[+]ボタンをクリックして1行を追加し、[Column] (カラム)カラムで名前をsms_tokenizer_wordsに変更します。このカラムは、トークン化されたメッセージを保持するために使われます。
- [Type] (タイプ)カラムで、このsms_tokenizer_words行に[Object] (オブジェクト)を選択します。
- [OK]をクリックして、これらの変更を検証します。
-
[Transformations] (変換)テーブルで[+]ボタンをクリックして1行を追加し、次の手順を実行します。
- [Input column] (入力カラム)カラムで、機能に変換するデータを提供するカラムを選択します。このシナリオではsms_contentsです。
- [Output column] (出力カラム)カラムで、機能を持つカラムを選択します。このシナリオではsms_tokenizer_wordsです。
- [Transformation] (変換)カラムで、変換に使うアルゴリズムを選択します。このシナリオではRegex tokenizerです。
- [Parameters] (パラメーター)カラムに、選択したアルゴリズムで使うためにカスタマイズするパラメーターを入力します。このシナリオではpattern=\\W;minTokenLength=3です。
タスクの結果
tModelEncoderはこの変換を使って、各入力メッセージをホワイトスペースで分割し、少なくとも3文字を含む単語のみを選択し、変換の結果をsms_tokenizer_wordsカラムに入力します。したがって、通貨記号、数値、句読点、およびa、an、toなどの単語はこのカラムから除外されます。