日本語テキストをトークン化する - Cloud

日本語テキストをトークン化する - Cloud - 8.0

Text standardization

Version

Cloud

8.0

Language

日本語

Product

Talend Big Data Platform

Talend Data Fabric

Talend Data Management Platform

Talend Data Services Platform

Talend MDM Platform

Talend Real-Time Big Data Platform

Module

Talend Studio

Content

ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント

データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント

データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント

Last publication date

2024-02-28

このシナリオはTalend Data Management Platform、Talend Big Data PlatformTalend Real-Time Big Data Platform、Talend MDM PlatformTalend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントをご覧ください。

tJapaneseTokenizeコンポーネントを使って、日本語のテキストをトークンに分割できます。

以下で説明する例を複製するには、tJapaneseTokenize_standard_scenario.zipファイルをダウンロードします。

tJapaneseTokenize_standard_scenario.zipファイルは、以下によって構成されています。

日本語のテキスト、文字起こし、英語の翻訳が含まれたプレーンテキストファイルinputJapaneseText.txt。
ジョブが含まれたtJapaneseTokenizeJob.zipファイル。