パーサールールの設定および管理 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

パーサールールは、ANTLRの記号を使用して分析対象の想定されるデータ文字列の構成を記述および定義します。このようにパーサールールを使用すると、想定に応じて分析対象データを正規化および標準化できます。パーサールールは、標準化ルールとも呼ばれています。

たとえば、 <INT><WORD+><StreetType>というパーサールールは、12 main streetのような標準的な住所のデータ形式を定義します。

パーサールールのセットは、Studioの[Profiling]パースペクティブのProfilingツリービュー、あるいはtStandardizeRowコンポーネントの[Basic settings] (基本設定)ビューから作成できます。★ただし、特定のルールのセットの共有、再利用、適合などの目的でパーサールールのセットをテスト、保存、および管理しなければならない場合は、[DQ Repository] (DQリポジトリ)ツリービューを使用する必要があります。

パーサールールを作成および使用してtStandardizeRowでデータを分析、正規化、および標準化する方法についての詳細は、『Talend Components Reference Guide』を参照して下さい。

ANTLRパーサーについての詳細は、http://www.antlr.org/を参照して下さい。

以下のセクションでは、[DQ Repository] (DQリポジトリ)ツリービューからパーサールールを作成および管理する方法を示します。