2つの解析レベルを使って非構造化データから情報を抽出する - 7.3

Standardization

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化

このシナリオは、Talend Data Management PlatformTalend Big Data PlatformTalend Real Time Big Data PlatformTalend Data Services PlatformTalend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントを参照してください。

このシナリオでは、非構造化データから一部の情報を抽出するルールセットを構築する方法について説明します。基本的なANTLRルールを使ってデータをトークン化する方法と、詳細なルールを使ってANTLRによって作成された各トークンを正規表現と照合する方法について説明します。

このシナリオで使うコンポーネントは以下のとおりです。

  • 非構造化データ文字列を作成するtFixedFlowInputコンポーネント。

  • データ文字列から液体の量を抽出するために必要なルールを定義するtStandardizeRowコンポーネント。

  • 出力データを表示するtLogRowコンポーネント。