2つの解析レベルを使って非ストラクチャー化データから情報を抽出する - 7.3

Standardization

Version
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > 標準化
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > 標準化
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > 標準化
Last publication date
2024-02-22

このシナリオは、Talend Data Management Platform、Talend Big Data Platform、Talend Real Time Big Data Platform、Talend Data Services Platform、Talend MDM PlatformおよびTalend Data Fabricにのみ適用されます。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントをご覧ください。

このシナリオでは、非ストラクチャー化データから一部の情報を抽出するルールセットを構築する方法について説明します。基本的なANTLRルールを使ってデータをトークン化する方法と、詳細なルールを使ってANTLRによって作成された各トークンを正規表現と照合する方法について説明します。

このシナリオで使うコンポーネントは、以下のとおりです。

  • 非ストラクチャー化データ文字列を作成するtFixedFlowInputコンポーネント。

  • データ文字列から液体の量を抽出するために必要なルールを定義するtStandardizeRowコンポーネント。

  • 出力データを表示するtLogRowコンポーネント。