メイン コンテンツをスキップする

Text standardizationのコンポーネント

tJapaneseNumberNormalize 日本語の数字(漢数字)をアラビア数字に正規化します。
tJapaneseTokenize 日本語のテキストをトークンに分割します。
tJapaneseTransliterate 日本語のテキストデータを仮名とラテンスクリプトに変換します。
tStem このデータを照合する前に、カラムのデータを標準化できるようにします。
tTransliterate 文字列を世界の多数の言語の標準文字セット UCS (Universal Coded Character Set)に変換します。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。