ネームドエンティティをテキストデータから抽出する - 7.2

Natural Language Processing

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 自然言語処理
データガバナンス > サードパーティーシステム > 自然言語処理
データクオリティとプレパレーション > サードパーティーシステム > 自然言語処理
このジョブでは、tNLPPredictコンポーネントは、tNLPModelコンポーネントによって生成された分類モデルを使用して、ネームドエンティティを予測し、自動的にラベル付けします。

手順

  1. tNLPPredictコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、そのプロパティを定義します。
    1. ジョブで接続されている先行コンポーネントからスキーマを取得するには、[Sync columns] (カラムの同期)をクリックします。
    2. ラベル付けするテキストが含まれたカラムを[Original text column] (元のテキストカラム)リストから選択します(このサンプルではtext)。
    3. 機能の構築と予測に使用するカラムを[Token column] (トークンカラム)リストから選択します(このサンプルではtokens)。
    4. [NLP Library] (NLPライブラリー)リストから、モデルの生成に使用したのと同じライブラリーを選択します。
    5. ネームドエンティティ認識モデルが1つのファイルに保存されている場合は、[Use the model file] (モデルファイルの使用)チェックボックスをオンにします。
    6. モデルへのパスを[NLP model path] (NLPモデルパス)に指定します。
  2. tFilterColumnsコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、そのプロパティを定義します。
    1. ジョブで接続されている先行コンポーネントからスキーマを取得するには、[Sync columns] (カラムの同期)をクリックします。
    2. スキーマをBuilt-inに設定し、[Edit schema] (スキーマを編集)をクリックして、元のテキスト、ラベル付けされたテキスト、およびラベルが保存されたカラムのみを保持します。
  3. tFileOutputDelimitedコンポーネントをダブルクリックして[Basic settings] (基本設定)ビューを開き、そのプロパティを定義します。
    1. ジョブで接続されている先行コンポーネントからスキーマを取得するには、[Sync columns] (カラムの同期)をクリックします。
    2. ラベル付けされたテキストとラベルを保存するフォルダーへのパスを[Folder] (フォルダー)フィールドで指定します。
    3. [Row separator] (行区切り)フィールドに"\n"を、[Field separator] (フィールド区切り)フィールドに";"を入力します。
  4. [F6]を押してジョブを実行します。

タスクの結果

出力ファイルには、元のテキスト、ラベル付けされたテキスト、およびラベルが含まれています。ネームドエンティティ認識タスクは正しく実行されました。人名が元のテキストから抽出されたからです。