tJapaneseNumberNormalize - 7.3

Text standardization

Version
7.3
Language
日本語
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント
Last publication date
2024-02-22

日本語の数字(漢数字)をアラビア数字に正規化します。

日本語の数字は、漢字とアラビア数字と句読点を組み合わせて書かれていることがよくあります。日本語の番号を正規化すると、それらの番号をより容易に検索できるようになり、照合精度が向上します。

たとえば、tJapaneseNumberNormalizeは3.2千を3200に正規化します。これにより、日本語の数字「3.2千」とアラビア数字の対応語「3200」を一致させることができます。

ローカルモードでは、Apache Spark 2.4と3.0がサポートされています。

Talendがサポートしているテクノロジーの詳細は、Talendコンポーネントをご覧ください。