tJapaneseTransliterate - Cloud - 8.0

Text standardization

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント
Last publication date
2024-02-28

日本語のテキストデータを仮名とラテンスクリプトに変換します。

翻字とは音声的な操作であり、tJapaneseTransliterateコンポーネントは、文字列の表す音声に基づいて元のテキストデータと同等の文字列を仮名文字またはローマ字で作成しようと試みます。

現代の日本語表記システムでは、漢字と音節仮名(ひらがなとカタカナ)を組み合わせて使います。漢字や仮名が読めない外国人のために、ラテン文字で日本語を書くローマ字システムが開発されました。

tJapaneseTransliterateコンポーネントは、日本語を仮名またはローマ字に変換します。
  • 仮名文字
    • ひらがな
    • カタカナ読み
    • カタカナ発音
  • ローマ字
    • 修正ヘボン式: 最も広く使われているローマ字表記システムです。
    • 訓令式: このローマ字化システムは、日本政府および国際標準化機構によってISO 3602として標準化されています。現代の標準日本語のための日本式システムの修正バージョンです。
    • 日本式: このローマ字化システムは、仮名とローマ字の間で1対1の対応を維持するため、最も標準的なローマ字化システムです。

ローカルモードでは、Apache Spark 2.4.0以降のバージョンがサポートされています。

デフォルトで、このコンポーネントはTalend Studioと共には出荷されていません。機能マネージャーを使ってインストールする必要があります。 詳細は、機能マネージャーを使って機能をインストールをご覧ください。

Talendがサポートしているテクノロジーの詳細は、Talendコンポーネントをご覧ください。