正規表現を使って一致する内容を検索 - 7.3

Talend Data Preparationユーザーガイド

Version
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Data Preparation
Content
データクオリティとプレパレーション > データクレンジング
Last publication date
2023-11-29

正規表現を使ってデータの中から特定のパターンを見つけ、興味のある値を分離できます。

このシナリオでは、ISBN番号を含む書籍に関する情報を一覧にしたデータセットで作業を行います。Talend Data Preparationを使用すると、ISBNが有効かどうか、正しいパターンに従っているかどうかを確認できます。[Matches Pattern] (パターンに一致)機能では、選択した表現とデータを比較できます。

手順

  1. ISBNカラムをクリックしてその内容を選択します。
  2. ファンクションリストで[Matches Pattern...] (パターンに一致…)を見つけて選択します。

    メニューが開いたら、検索するパターンを入力します。

  3. [Pattern] (パターン)フィールドのドロップダウンリストから[other] (その他)を選択します。
  4. [Manual pattern] (パターンに一致)フィールドの左側のボタンをクリックして、リストから[RegEx]を選択します。
  5. [Manual pattern] (パターンに一致)フィールドに^[ISBN]\{4\}[ ]{0,1}[0-9]\{1\}[-]\{1\}[0-9]\{3\}[-]\{1\}[0-9]\{5\}[-]\{1\}[0-9]{0,1}$と入力します。

    この正規表現は、データセットで特定する必要のあるISBN番号モデルに対応します。

  6. [Submit] (送信)をクリックします。

    新しいカラム「ISBN_MATCHING」が作成され、正規表現で定義されたパターンに一致する値はtrueとして表示されます。一致しない値はfalseとして表示されます。

タスクの結果

特定のパターンを検索する正規表現を使用したので、検索に一致する値を特定、分離できます。