tJapaneseTokenize - Cloud - 8.0

Text standardization

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント

日本語のテキストをトークンに分割します。

トークン化は重要な前処理ステップであり、後続の分析、翻字、テキストマイニングまたは自然言語処理タスクのためのテキストデータを準備します。

英語やフランス語と違って、日本語では単語の境界を示すスペースがありません。日本語のテキストをトークンに分割することは、より困難です。

IPADICディクショナリーに基づいて、tJapaneseTokenizeは単語の境界が存在する場所を推測し、トークンを区切るためのスペースを追加します。

IPADICディクショナリーは、情報技術振興機構(IPA)によって開発されたものです。このディクショナリーはIPAコーパスに基づいており、日本のトークン化で最も広く使われているディクショナリーです。

ローカルモードでは、Apache Spark 2.4.0以降のバージョンがサポートされています。

デフォルトで、このコンポーネントはTalend Studioと共には出荷されていません。機能マネージャーを使ってインストールする必要があります。 詳細は、機能マネージャーを使って機能をインストールをご覧ください。

Talendがサポートしているテクノロジーの詳細は、Talendコンポーネントを参照してください。

使用しているTalend製品に応じて、このコンポーネントは次のジョブフレームワークの1つ、一部、またはすべてで使用できます。

  • 標準:tJapaneseTokenizeの標準プロパティをご覧ください。

    このフレームワーク内のコンポーネントは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend Data Fabricで利用できます。

  • Spark Batch:Apache Spark BatchのtJapaneseTokenizeプロパティをご覧ください。

    このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend Platform製品すべて、およびTalend Data Fabricで利用できます。

  • Spark Streaming:Apache Spark StreamingのtJapaneseTokenizeプロパティをご覧ください。

    このコンポーネントは、Talend Real Time Big Data PlatformおよびTalend Data Fabricで利用できます。