正規表現を使って一致する内容を検索 - Cloud

Talend Cloud Data Preparationユーザーガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
Last publication date
2023-11-20

正規表現を使ってデータの中から特定のパターンを見つけ、興味のある値を分離できます。

このシナリオでは、ISBN番号を含む書籍に関する情報を一覧にしたデータセットで作業を行います。Talend Data Preparationを使用すると、ISBNが有効かどうか、正しいパターンに従っているかどうかを確認できます。[Match pattern] (パターンに一致)ファンクションでは、選択した表現とデータを比較できます。

手順

  1. ISBNカラムをクリックしてその内容を選択します。
  2. ファンクションリストで[Match pattern...] (パターンに一致…)を見つけて選択します。

    メニューが開いたら、検索するパターンを入力します。

  3. [Pattern] (パターン)フィールドのドロップダウンリストから[other] (その他)を選択します。
  4. [Manual pattern] (パターンに一致)フィールドの左側のボタンをクリックし、リストから[Regex]を選択します。
  5. [Manual pattern] (パターンに一致)フィールドに^[ISBN]\{4\}[ ]{0,1}[0-9]\{1\}[-]\{1\}[0-9]\{3\}[-]\{1\}[0-9]\{5\}[-]\{1\}[0-9]{0,1}$と入力します。

    この正規表現は、データセットで特定する必要のあるISBN番号モデルに対応します。

  6. [Submit] (送信)をクリックします。

    ISBN_matchingという新しいカラムが作成され、正規表現で定義されたパターンに一致する値がtrueとして表示されます。一致しない値はfalseとして表示されます。

タスクの結果

特定のパターンを検索する正規表現を使用したので、検索に一致する値を特定、分離できます。