出力コンポーネントの設定とジョブの実行 - 7.2

Text standardization

Version
7.2
Language
日本語 (日本)
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化 > テキスト標準化コンポーネント

手順

  1. tLogRowをダブルクリックして、[Component] (コンポーネント)タブで[Basic settings] (基本設定)ビューを開きます。
  2. [Sync columns] (カラムの同期)をクリックして、前のコンポーネントからスキーマを取得します。
  3. [Mode] (モード)エリアで[Table (print values in cells of a table)] (テーブル(テーブルセル内の値を印刷する))を選択します。
  4. [F6] を押してジョブを実行します。

タスクの結果

正規化された数値は[Run] (実行)ビューに書き込まれます。

.-----------------+---------------------.
|               tLogRow_1               |
|=----------------+--------------------=|
|kansuji          |normalized_arabic_num|
|=----------------+--------------------=|
|〇〇七              |7                    |
|一〇〇〇             |1000                 |
|三千2百2十三          |3223                 |
|15,7             |157                  |
|一万               |10000                |
|負一千一百五十八         |-1158                |
|1.2万345.67       |12345.67             |
|1.2万345.6三       |12345.63             |
|4,647.100        |4647.1               |
|七十五點四零二五         |75.4025              |
|万                |10000                |
|億                |100000000            |
|兆                |1000000000000        |
|京                |10000000000000000    |
|垓                |100000000000000000000|
|九百八十三万 六千七百三     |9836703              |
|二十億 三千六百五十二万 千八百一|2036521801           |
|¥百二十三            |¥123                 |
|百二十三円            |123円                 |
'-----------------+---------------------'

tJapaneseNumberNormalizeは、連続する漢数字を使って書かれた日本語の数字をサポートしています。〇〇七は7になります。

tJapaneseNumberNormalizeは、漢字とアラビア数字の組み合わせを使って書かれた日本語の数字をサポートしています。三千2百2十三は3223になります。

10進数のコンマは、tJapaneseNumberNormalizeコンポーネントによって返される正規化された数値内に保持されません。その結果、4,647.100は4647.1になり、15,7は157になります。入力数値で小数点区切りとして小数点コンマを使っている場合は、小数点コンマを小数点に置き換える必要があります。

入力数値では、コンマを使って千のグループを区切ることができます。4,647.100は4647.1になります。また、 tJapaneseNumberNormalizeコンポーネントは、入力数値から後続ゼロを削除します。

tJapaneseNumberNormalizeは大きな漢字の数字をサポートします: 兆六百万五千一は1000006005001になります。