tJapaneseTokenize
日本語のテキストをトークンに分割します。
トークン化は重要な前処理ステップであり、後続の分析、翻字、テキストマイニングまたは自然言語処理タスクのためのテキストデータを準備します。
英語やフランス語と違って、日本語では単語の境界を示すスペースがありません。日本語のテキストをトークンに分割することは、より困難です。
IPADICディクショナリーに基づいて、tJapaneseTokenizeは単語の境界が存在する場所を推測し、トークンを区切るためのスペースを追加します。
IPADICディクショナリーは、情報技術振興機構(IPA)によって開発されたものです。このディクショナリーはIPAコーパスに基づいており、日本のトークン化で最も広く使われているディクショナリーです。
ローカルモードでは、Apache Spark 1.6、2.1、2.3、2.4、3.0がサポートされています。
Talendがサポートしているテクノロジーの詳細は、Talendコンポーネントを参照してください。
使用しているTalend製品に応じて、このコンポーネントは、次のジョブのフレームワークの1つ、一部、またはすべてで使用できます。
- 標準:tJapaneseTokenizeの標準プロパティをご覧ください。
このフレームワーク内のコンポーネントは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend Data Fabricで利用できます。
- Spark Batch:Apache Spark BatchのtJapaneseTokenizeプロパティをご覧ください。
このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend Platform製品すべて、およびTalend Data Fabricで利用できます。
- Spark Streaming:Apache Spark StreamingのtJapaneseTokenizeプロパティをご覧ください。
このコンポーネントは、Talend Real Time Big Data PlatformおよびTalend Data Fabricで利用できます。