新しい正規表現またはSQLパターンを作成する - 7.3

Talend Big Data Platform Studio ユーザーガイド

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発

新しい正規表現またはSQLパターン(Java用を含む)を作成してカラム分析で使用できます。

正規表現とSQLパターンの管理プロセスは同じです。以下で紹介する手順とスクリーンショットは正規表現の作成手順を説明したものです。同じ手順に従ってSQLパターンを作成できます。

始める前に

Talend Studio Profiling パースペクティブを選択していること。

手順

  1. [DQ Repository] (DQリポジトリー)ツリービューで、[Libraries] (ライブラリー) > [Patterns] (パターン)の順に展開し、[Regex] (正規表現)を右クリックします。
  2. コンテキストメニューから[New Regex Pattern] (新規正規表現パターン)を選択して対応するウィザードを開きます
    ウィザードを開くとヘルプパネルが自動的に表示されます。このヘルプパネルには新しい正規表現パターンを作成するための手順が表示されます。
  3. [Name] (名前)フィールドに、新しい正規表現の名前を入力します。
    注:

    項目の名前には次の特殊文字は使用しないでください。

    "~", "!", "`", "#", "^", "&", "*", "\\", "/", "?", ":", ";", "\"", ".", "(", ")", "'", "¥", "'", """, "«", "»", "<", ">"

    ファイルシステムでは、これらの文字はすべて"_"に置き換えられ、重複する項目が作成されてしまう場合があります。

  4. 必要に応じて、該当するフィールドに他のメタデータ(目的、説明、作成者名)を設定し、[Next] (次へ)をクリックします。
  5. [Regular expression] (正規表現)フィールドに作成する正規表現の定義を入力します。正規表現は一重引用符で囲む必要があります。
    注:

    PostgreSQLデータベースの場合、正規表現はデータベースの異なるバージョン間で互換性がありません。

    PostgreSQLバージョン9.1以降で正規表現を使用する場合は、次のいずれかを実行する必要があります。
    • PostgreSQLデータベース設定で、standard_conforming_stringsパラメーターをoffに設定し、定義内に二重のバックスラッシュを記述するか、
    • ウィザードの[Regular expression] (正規表現)フィールドの表現定義で単一のバックスラッシュを使用します。

    PostgreSQL正規表現の詳細を確認するには、[Window] (ウィンドウ) > [Show View] (ビューの表示)を選択して[Help] (ヘルプ)を展開し、[Bookmarks] (ブックマーク)を選択します。

  6. [Language Selection] (言語選択)リストから言語を選択します(特定のデータベースまたはJava)。
    注:

    [Language Selection] (言語選択)リストからデータベースを選択すると、カラム分析の結果に対してELTジョブを生成し、有効なカラムと無効なカラムを再取得できます。[Java]または[Default] (デフォルト)の言語を選択すると、カラム分析の結果に対してETLジョブを生成できます。

    有効行、無効行、その両方を再取得するジョブの生成に関する詳細は、カラム分析での有効および無効な行の取得を参照してください。

  7. [Finish] (終了)をクリックしてダイアログボックスを閉じます。
    [DQ Repository] (DQリポジトリー)ツリービュー内のRegexフォルダーの下に新しい正規表現のサブフォルダーが表示され、定義されたメタデータと正規表現が表示されたパターンエディターが開きます。
  8. [Pattern Definition] (パターン定義)ビューで、[+]ボタンをクリックし、新しいパターンに必要なだけ正規表現を追加します。
    任意の利用可能なデータベースまたはJava専用の正規表現を定義できます。
    注: 正規表現がどのデータベースででも利用できるほどシンプルである場合は、リストで[Default] (デフォルト)を選択します。
    [DQ Repository] (DQリポジトリー)ツリービューの[Patterns] (パターン)フォルダーの中にある新しいパターン名の下に、指定されたデータベースタイプまたはJavaのラベルが付いたサブフォルダーが表示されます。
  9. 新しいパターンを保存します。
    パターン作成後、開いている分析エディターのデータベースカラムにパターンを直接ドロップできます。
  10. オプション: パターン名をクリックし、Talend Studio[Detail View] (詳細ビュー) [Technical] (テクニカル)ビューで詳細を表示します。