入力コンポーネントを設定 - 7.2

Natural Language Processing

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 自然言語処理
データガバナンス > サードパーティーシステム > 自然言語処理
データクオリティとプレパレーション > サードパーティーシステム > 自然言語処理

始める前に

  • モデルのトレーニングに使用するCoNLLファイル内でネームドエンティティに注釈を付けていること。

手順

  1. tFileInputDelimitedコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、そのプロパティを定義します。
    1. [Schema] (スキーマ)を[Built-in] (組み込み)に設定し、[Edit schema] (スキーマを編集)をクリックして目的のスキーマを定義します。

      出力スキーマの最初のカラムは[tokens] (トークン)、最後のカラムは[labels] (ラベル)である必要があります。その間に、手動で追加した機能用のカラムを挿入できます。

    2. [Folder/file](フォルダー/ファイル)フィールドで、トレーニングデータのパスを指定します。
    3. [Die on error] (エラー発生時に強制終了)チェックボックスはオンのままにしておきます。
  2. データ処理中に問題が発生した場合は、コンポーネントの[Advanced settings] (詳細設定)ビューで[Custom encoding] (カスタムエンコーディング)チェックボックスをオンにします。
  3. [Encoding] (エンコーディング)リストで、使用するエンコーディングを選択します(この例ではUTF-8)。