正規表現を使った、一致する内容の検索 - 2.8

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
2.8
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

正規表現を使ってデータの中から特定のパターンを見つけ、興味のある値を分離することができます。

このシナリオでは、ISBN番号を含む書籍に関する情報を一覧にしたデータセットで作業を行います。Talend Data Preparationを使用すると、ISBNが有効かどうか、正しいパターンに従っているかどうかを確認できます。[Matches Pattern] (パターンに一致)ファンクションでは、選択した表現とデータを比較できます。

手順

  1. ISBNカラムをクリックしてその内容を選択します。
  2. ファンクションリストで[Matches Pattern...] (パターンに一致...)を見つけて選択します。

    メニューが開いたら、検索するパターンを入力します。

  3. [Pattern] (パターン)フィールドのドロップダウンリストから[other] (その他)を選択します。
  4. [Manual pattern] (パターンに一致)フィールドの左側のボタンをクリックして、リストから[RegEx]を選択します。
  5. [Manual pattern] (パターンに一致)フィールドに、「^[ISBN]{4}[ ]{0,1}[0-9]{1}[-]{1}[0-9]{3}[-]{1}[0-9]{5}[-]{1}[0-9]{0,1}$」と入力します。

    この正規表現は、データセットで特定する必要のあるISBN番号モデルに対応します。

  6. [Submit] (送信)をクリックします。

    新しいカラム「ISBN_MATCHING」が作成され、正規表現で定義されたパターンに一致する値はtrueとして表示されます。 一致しない値はfalseとして表示されます。

タスクの結果

特定のパターンを検索する正規表現を使用したので、検索に一致する値を特定、分離することができます。