正規表現を使った、一致する内容の検索 - Cloud

Talend Cloud Data Preparationユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データセットの管理
管理と監視 > 接続の管理
EnrichPlatform
Talend Data Preparation

正規表現を使ってデータの中から特定のパターンを見つけ、興味のある値を分離することができます。

このシナリオでは、ISBN番号を含む書籍に関する情報を一覧にしたデータセットで作業を行います。Talend Data Preparationを使用すると、ISBNが有効かどうか、正しいパターンに従っているかどうかを確認できます。[Matches Pattern] (パターンに一致)ファンクションでは、選択した表現とデータを比較できます。

手順

  1. ISBNカラムをクリックしてその内容を選択します。
  2. ファンクションリストで[Matches Pattern...] (パターンに一致…)を見つけて選択します。

    メニューが開いたら、検索するパターンを入力します。

  3. [Pattern] (パターン)フィールドのドロップダウンリストから[other] (その他)を選択します。
  4. [Manual pattern] (パターンに一致)フィールドの左側のボタンをクリックして、リストから[RegEx]を選択します。
  5. [Manual pattern] (パターンに一致)フィールドに^[ISBN]\{4\}[ ]{0,1}[0-9]\{1\}[-]\{1\}[0-9]\{3\}[-]\{1\}[0-9]\{5\}[-]\{1\}[0-9]{0,1}$と入力します。

    この正規表現は、データセットで特定する必要のあるISBN番号モデルに対応します。

  6. [Submit] (送信)をクリックします。

    新しいカラム「ISBN_MATCHING」が作成され、正規表現で定義されたパターンに一致する値はtrueとして表示されます。一致しない値はfalseとして表示されます。

タスクの結果

特定のパターンを検索する正規表現を使用したので、検索に一致する値を特定、分離することができます。