日本語テキストをトークン化する - 7.2

Text standardization

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント

このシナリオは、Talend Data Management PlatformTalend Big Data PlatformTalend Real Time Big Data PlatformTalend Data Services PlatformTalend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントを参照してください。

tJapaneseTokenizeコンポーネントを使って、日本語のテキストをトークンに分割できます。

以下に示す例をレプリケートするには、このヘルプページの左側のパネルにある[Downloads] (ダウンロード)タブからtJapaneseTokenize_standard_scenario.zipファイルを取得します。

以下に示す例をレプリケートするには、https://help.talend.comにあるこのページのオンライン版の[Downloads] (ダウンロード)タブからtJapaneseTokenize_standard_scenario.zipファイルを取得します。

tJapaneseTokenize_standard_scenario.zipファイルは、以下によって構成されています。
  • 日本語のテキスト、文字起こし、英語の翻訳が含まれたプレーンテキストファイルinputJapaneseText.txt
  • ジョブが含まれたtJapaneseTokenizeJob.zipファイル。