正規表現を使ってデータの中から特定のパターンを見つけ、興味のある値を分離できます。
このシナリオでは、ISBN番号を含む書籍に関する情報を一覧にしたデータセットで作業を行います。Talend Data Preparationを使用すると、ISBNが有効かどうか、正しいパターンに従っているかどうかを確認できます。[Match pattern] (パターンに一致)ファンクションでは、選択した表現とデータを比較できます。
手順
-
ISBNカラムをクリックしてその内容を選択します。
-
ファンクションリストで[Match pattern...] (パターンに一致…)を見つけて選択します。
メニューが開いたら、検索するパターンを入力します。
-
[Pattern] (パターン)フィールドのドロップダウンリストから[other] (その他)を選択します。
-
[Manual pattern] (パターンに一致)フィールドの左側のボタンをクリックし、リストから[Regex]を選択します。
-
[Manual pattern] (パターンに一致)フィールドに^[ISBN]\{4\}[ ]{0,1}[0-9]\{1\}[-]\{1\}[0-9]\{3\}[-]\{1\}[0-9]\{5\}[-]\{1\}[0-9]{0,1}$と入力します。
この正規表現は、データセットで特定する必要のあるISBN番号モデルに対応します。
-
[Submit] (送信)をクリックします。
ISBN_matchingという新しいカラムが作成され、正規表現で定義されたパターンに一致する値がtrueとして表示されます。一致しない値はfalseとして表示されます。
タスクの結果
特定のパターンを検索する正規表現を使用したので、検索に一致する値を特定、分離できます。