正規表現を使ってデータの中から特定のパターンを見つけ、興味のある値を分離できます。
このシナリオでは、ISBN番号を含む書籍に関する情報を一覧にしたデータセットで作業を行います。Talend Data Preparationを使用すると、ISBNが有効かどうか、正しいパターンに従っているかどうかを確認できます。[Matches Pattern] (パターンに一致)機能では、選択した表現とデータを比較できます。
手順
-
ISBNカラムをクリックしてその内容を選択します。
-
ファンクションリストで[Matches Pattern...] (パターンに一致…)を見つけて選択します。
メニューが開いたら、検索するパターンを入力します。
-
[Pattern] (パターン)フィールドのドロップダウンリストから[other] (その他)を選択します。
-
[Manual pattern] (パターンに一致)フィールドの左側のボタンをクリックして、リストから[RegEx]を選択します。
-
[Manual pattern] (パターンに一致)フィールドに^[ISBN]\{4\}[ ]{0,1}[0-9]\{1\}[-]\{1\}[0-9]\{3\}[-]\{1\}[0-9]\{5\}[-]\{1\}[0-9]{0,1}$と入力します。
この正規表現は、データセットで特定する必要のあるISBN番号モデルに対応します。
-
[Submit] (送信)をクリックします。
新しいカラム「ISBN_MATCHING」が作成され、正規表現で定義されたパターンに一致する値はtrueとして表示されます。一致しない値はfalseとして表示されます。
タスクの結果
特定のパターンを検索する正規表現を使用したので、検索に一致する値を特定、分離できます。