トークン化されたテキストをCoNLL形式に変換する - 7.2

Natural Language Processing

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 自然言語処理
データガバナンス > サードパーティーシステム > 自然言語処理
データクオリティとプレパレーション > サードパーティーシステム > 自然言語処理
分類モデルをテキストから学習できるようにするには、このテキストをトークンに分割し、tNormalizeを使用してCoNLL形式に変換する必要があります。

手順

  1. tNLPPreprocessingコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、そのプロパティを定義します。
    1. ジョブで接続されている先行コンポーネントからスキーマを取得するには、[Sync columns] (カラムの同期)をクリックします。
    1. [NLP Library] (NLPライブラリー)リストから、トークン化に使用するライブラリーを選択します。このサンプルでは、ScalaNLPが使用されています。
  2. [Column to preprocess] (前処理するカラム)リストから、トークンに分割するテキストが保存されているカラムを選択します(このサンプルではmessage)。
  3. tFilterColumnsコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、そのプロパティを定義します。
  4. [Edit schema] (スキーマを編集)をクリックして、tokensカラムを出力スキーマに追加します。これが正規化するカラムであるためです。続いて、[OK]をクリックして確定します。
  5. tNormalizeコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、そのプロパティを定義します。
    1. ジョブで接続されている先行コンポーネントからスキーマを取得するには、[Sync columns] (カラムの同期)をクリックします。
    2. [Column to normalize] (正規化するカラム)リストからtokensを選択します。
    3. 出力ファイルで[Item separator] (アイテム区切り)フィールドに"\t"を入力して、トークンをタブで区切ります。
  6. tFileOutputDelimitedコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、そのプロパティを定義します。
    1. ジョブで接続されている先行コンポーネントからスキーマを取得するには、[Sync columns] (カラムの同期)をクリックします。
    2. [Folder] (フォルダー)フィールドに、CoNLLファイルを保存するフォルダーへのパスを指定します。
    3. [Row Separator] (行区切り)フィールドに"\n"を入力します。
    4. [Field Separator] (フィールド区切り)フィールドに"\t"を入力して、フィールドをタブで区切ります。
  7. [F6]を押してジョブを実行します。

タスクの結果

指定したフォルダーに出力ファイルが作成されます。ファイルには、行ごとに1つのトークンがある単一カラムが含まれています。

このテキストデータから分類モデルを学習するには、その前に人名にはPER、他のトークンにはOのラベルを手動で付けます。