パターンを使用したタスクのフィルタリング - 7.2

Talend Data Stewardshipユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データガバナンス > キャンペーンの管理
データガバナンス > タスクの割り当て
データガバナンス > データモデルの管理
データクオリティとプレパレーション > セマンティックタイプの管理
データクオリティとプレパレーション > タスク管理
管理と監視 > ユーザーの管理
EnrichPlatform
Talend Data Stewardship

プロファイリングエリアの[Pattern] (パターン)タブには、データを構成する文字のタイプと数がグラフィカルに表現されています。単語または文字の精度によってレコードがどう構造化されているかを視覚的に確認することができます。

データにフィルターをすばやく簡単に適用する方法にもなります。

カラムのコンテンツを選択するときに、横棒グラフにはデータを構成する文字や単語のタイプと数を表すさまざまなパターンの配分が表示されます。

パターンを文字ベースと単語ベースの間で切り替えるには、[Pattern] (パターン)タブを使用します。ただし数値データは例外で、文字パターンのみ計算されます。

たとえばファーストネームとラストネームにおけるデータクオリティの問題を検出するのに、単語ベースのパターン分析は効率的な手法です。句読点や数字が含まれているなど、単語のみで構成されていない名前は、目立つのですぐに判明します。他方、文字ベースのパターンは、クライアントIDやアカウント番号などの構造化されたデータの場合により適しています。文字や数字の数が正しくない場合は、チャートでわかります。

手順

  1. キャンペーンを開きます。
  2. カラムヘッダーをクリックし、コンテンツを選択します。このサンプルでは[EMAIL] (電子メール)カラムです。
  3. 右側のパネルで[Pattern] (パターン)を選択します。
    [EMAIL] (電子メール)カラム内の値を表すワードパターンがすべて計算され、表示されます。
  4. フィルター処理する値のワードパターンをクリックするか、[SHIFT]または[Ctrl]キーを押しながら複数のパターンを選択して、対応するタスクを一覧表示します。
    フィルター詳細がリストの上に追加され、フィルターを切り替えるスイッチが左上に表示されます。

    [word].[word][word]の形式の電子メールアドレスがすべてリスト表示されます。

  5. 電子メールアドレスの文字パターンに切り替えるには、[PATTERN] (パターン)ビューの右上の[A]アイコンをクリックします。
  6. 定義したフィルターを削除するには、リストの右上にポインターを置き、ごみ箱アイコンをクリックします。