パターンを使用した値のフィルタリング - 2.8

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
2.8
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

プロファイリングエリアの[Pattern] (パターン)タブには、データを構成する文字のタイプと数がグラフィカルに表現されています。言い換えると、単語または文字の精度によってレコードがどう構造化されているかを視覚的に確認することができます。データにフィルターを素早く簡単に適用する方法にもなります。

カラムのコンテンツを選択するときに、横棒グラフには使用されているさまざまなパターンの配分が表示されます。選択するデータのタイプに応じて、表示されるデフォルトパターンは異なります。

  • カラムタイプがtextまたはbooleanの場合は単語ベース。
  • カラムタイプがdateまたはnumberの場合は文字ベース。

ただし、データのタイプに関係なく、[Pattern] (パターン)タブで文字ベースと単語ベースの間でパターンを切り替えることができます。

たとえばファーストネームとラストネームにおけるデータクオリティの問題を検出するのに、単語ベースのパターン分析は効率的な手法です。句読点や数字が含まれているなど、単語のみで構成されていない名前は、目立つのですぐに判明します。他方、文字ベースのパターンは、クライアントIDやアカウント番号などの構造化されたデータの場合により適しています。文字や数字の数が正しくない場合は、チャートでわかります。

このサンプルでは、名前、電子メール、会社名、サブスクリプションの日付など、標準的な顧客情報のデータセットを使用します。

手順

  1. [email] (電子メール)など、フィルタリングするデータを含むカラムを選択します。
  2. プロファイリングエリアの[Pattern] (パターン)タブをクリックします。
    このカラムに使用されているさまざまなパターンが、チャート形式で表示されます。このカラムではtextデータが使用されるため、チャートには、単語ベースのパターンを使用したデータ配分が表示されます。
  3. [A]アイコンをクリックして文字ベースのビューに切り替えます。
    これにより、別の視点からデータを分析することができます。
  4. [Text] (テキスト)アイコンをクリックして単語ベースのビューに戻します。
  5. 上のバーをクリックして、最も一般的なパターンにフィルターを適用します。

    これで、プレパレーションには[word]@[word].[word]形式の行のみが表示されます。

    [Ctrl] + クリックまたは[Shift] + クリックの操作で複数の値を同時に選択し、より複雑なフィルターを適用できます。

  6. [Ctrl]ボタンを押したまま、[word][number]@[word].[word] パターンに対応するバーをクリックして、このフィルターを前のフィルターに追加します。
    グリッドには、これらの2つのフィルターに合うデータだけが表示されます。
  7. ファンクションパネルで、[Delete these Filtered Rows] (フィルター処理された行を削除)など、フィルター処理したデータに対して実行するファンクションをクリックします。
  8. フィルターバーで、各フィルターのバツ印をクリックするか、ゴミ箱アイコンをクリックしてフィルターを消去し、再びデータセット全体を表示します。