tStandardizeRow - Cloud - 8.0

Standardization

Version
Cloud
8.0
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化

受信データを個別のXMLまたはJSONデータフローで正規化して、ルール準拠データを非準拠データから分離または標準化します。

tStandardizeRowは、前のコンポーネントから受け取ったデータフローをトークン化し、ユーザー定義のパーサールールを適用してデータを分析します。この分析に基づいて、このコンポーネントは分析されたデータを正規化して別のデータフローに書き込み、ユーザー定義のルール名を使ってタグ付けします。生データは変更されません。

標準化オプションは出力フローに補足カラムを追加し、正規化されたデータがそこで標準化されます。

JavaライブラリーANTLRは、着信データを解析してトークン化するために使われます。ANTLRの詳細は、次のサイトをご覧ください。

http://www.antlr.org/

ローカルモードでは、Apache Spark 2.4.0以降のバージョンがサポートされています。

注: Talend Studio 7.2以前のバージョンで作成されたインデックスはアップデートが必要です。移行プロシージャーの場所はStudioインストールによって異なります。
  • インストラーがある場合は、/addons/scripts/Lucene_Migration_Tool/README.mdとなります。
  • インストーラーがない場合: ライセンスメールで、Migration tool for Lucene Indexes from version 4 to version 8のリンクをクリックしてください。

デフォルトで、このコンポーネントはTalend Studioと共には出荷されていません。機能マネージャーを使ってインストールする必要があります。 詳細は、機能マネージャーを使って機能をインストールをご覧ください。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントを参照してください。

使用しているTalend製品に応じて、このコンポーネントは次のジョブのフレームワークの1つ、一部、またはすべてで使用できます。

  • 標準: tStandardizeRowの標準プロパティを参照してください。

    このフレームワーク内のコンポーネントは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend Data Fabricで利用できます。

  • Spark Batch:Apache Spark BatchのtStandardizeRowプロパティをご覧ください。

    このフレームワーク内のコンポーネントは、ビッグデータ対応のTalend Platform製品すべて、およびTalend Data Fabricで利用できます。

  • Spark Streaming:Apache Spark StreamingのtStandardizeRowプロパティをご覧ください。

    このコンポーネントは、Talend Real Time Big Data PlatformおよびTalend Data Fabricで利用できます。