パターンの種類 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

Profiling パースペクティブの[DQ Repository] (DQリポジトリ)ツリービューにある[Patterns] (パターン)フォルダーの中に、正規表現とSQLパターンの2種類があります。

正規表現(regex)は定義済みのパターンで、接続したデータベース内のテキストを検索や操作に使用できます。また、独自の正規表現を作成してカラムの分析に使用することもできます。

ジョブ内でパターンを選択するときには、現在のデータベースタイプ用の正規表現が使用されます。
  • このデータベースタイプに対する正規表現が存在しない場合は、選択したパターン内のデフォルトの正規表現が使用されます。
  • ジョブで使用されているパターン内で、このデータベースタイプの正規表現を削除すると、ジョブは、選択したパターン内のデフォルトの正規表現で更新されます。

SQLパターンはSQLクエリで使用される一種のカスタマイズされたパターンです。これらのパターンには多くの場合パーセント記号(%)が含まれます。SQLワイルドカードの詳細は、http://www.w3schools.com/SQL/sql_wildcards.aspを参照して下さい。

上記の2種類のパターンを使用してカラムの分析、または一連のカラムの分析(単純なテーブル分析)を行うことができます。これらのパターンに基づく分析によって、分析対象カラムの値に見られるさまざまなデータパターンの出現頻度を調べることができます。詳細は、データベースカラムでの基本分析の作成およびパターンを使ってカラムセット分析を作成するを参照して下さい。

Studioで、パターンを使用した分析結果を表すグラフを生成することができます。また、生成されたグラフを文字で表す[Analysis Results] (分析結果)ビューでテーブルを表示することもできます。これらのグラフや分析結果から、リストされたパターンに基づく無効な値の割合を簡単に調べることができます。

SQLパターンと正規表現の管理方法は、Java向けのものも含めて同じです。詳細は、正規表現とSQLパターンの管理を参照して下さい。

警告: 一部のデータベースは正規表現をサポートしていません。このようなデータベースで正規表現を使用できるようにするには、多少の設定作業が必要となります。詳細は、データベース内でのユーザー定義関数の管理を参照して下さい。