特定のDBカラムからの英単語の語幹の抽出 - 7.2

Text standardization

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント

このシナリオは、Talend Data Management PlatformTalend Big Data PlatformTalend Real Time Big Data PlatformTalend Data Services PlatformTalend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントを参照してください。

このシナリオでは、[translation] (変換)カラムのデータに対して言語的な正規化を実行し、すべての英単語の基本部分(単語の語幹)を抽出する6つのコンポーネントのジョブについて説明しています。

このジョブの目的は、[translation] (変換)カラムにリスト表示される英単語の語幹についての一種の辞書を作成することです。この辞書は後の段階で、選択したテーブルに入力される新しい単語をチェックする目的で使用される場合があります。抽出された英語の語幹は、出現数と共に出力ファイルの[translation] (変換)カラムに書き込まれます。

このシナリオでは、既にメインの入力スキーマがリポジトリーに保管されています。リポジトリーにスキーマメタデータを保管する方法の詳細は、『 Talend Studioユーザーガイド』を参照してください。

メイン入力テーブルにはid_keyid_langtranslationid_statusid_user_transid_user_validateid_editorおよびdateという8つのカラムがあります。[translation] (変換)カラムで英単語の語幹を抽出します。