メイン コンテンツをスキップする

日本語テキストをトークン化する

このシナリオはTalend Data Management PlatformTalend Big Data PlatformTalend Real-Time Big Data PlatformTalend MDM PlatformTalend Data Services PlatformTalend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントをご覧ください。

tJapaneseTokenizeコンポーネントを使って、日本語のテキストをトークンに分割できます。

以下で説明する例を複製するには、tJapaneseTokenize_standard_scenario.zipファイルをダウンロードします。

tJapaneseTokenize_standard_scenario.zipファイルは、以下によって構成されています。
  • 日本語のテキスト、文字起こし、英語の翻訳が含まれたプレーンテキストファイルinputJapaneseText.txt
  • ジョブが含まれたtJapaneseTokenizeJob.zipファイル。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。