日本語テキストをトークン化する
このシナリオは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。
Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントをご覧ください。
tJapaneseTokenizeコンポーネントを使って、日本語のテキストをトークンに分割できます。
以下に示す例をレプリケートするには、このヘルプページの左パネルにある[Downloads] (ダウンロード)タブからtJapaneseTokenize_standard_scenario.zipファイルを取得します。
tJapaneseTokenize_standard_scenario.zipファイルは、以下によって構成されています。
- 日本語のテキスト、文字起こし、英語の翻訳が含まれたプレーンテキストファイルinputJapaneseText.txt。
- ジョブが含まれたtJapaneseTokenizeJob.zipファイル。
このページは役に立ちましたか?
このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。