正規表現ファイルメタデータの一元管理

Talend Open Studio for Data Integration ユーザーガイド

EnrichVersion
5.6
EnrichProdName
Talend Open Studio for Data Integration
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

正規表現ファイルのスキーマは、ログファイルなど正規表現で作成されるファイルに使用します。正規表現ファイルに頻繁に接続する必要がある場合、[Repository] (リポジトリ)で接続とスキーマ情報を一元化することで、簡単に再利用できます。

[New Delimited File] (新規の区切り記号付きファイル)ウィザードのように、[New RegEx File] (新規の正規表現ファイル)では、4つの手順でファイル接続とスキーマ定義が収集されます。

注記

ここでの手順には正規表現構文の高度な知識が必要とされます。

正規表現ファイルの接続を最初から作成するには、まず[Repository] (レポジトリ)ツリービューで[Metadata] (メタデータ)を展開します。次に[File Regex] (正規表現ファイル)を右クリックして、コンテキストメニューから[Create file regex] (正規表現ファイル接続を作成)を選択し、ファイルメタデータセットアップウィザードを開きます。

ジョブで定義したファイル接続とスキーマを一元管理するには、該当するコンポーネントの[Basic settings] (基本設定)ビュー([Property Type] (プロパティタイプ)は[Built-in] (組み込み)に設定)でアイコンをクリックし、ファイルメタデータセットアップウィザードを開きます。

このウィザードで一般的なプロパティとファイルスキーマを定義します。

一般的なプロパティの定義

  1. ファイルメタデータセットアップウィザードで、[Name] (名前)フィールド(必須)、[Purpose] (目的)フィールドと[Description] (説明)フィールド(任意)を入力します。[Description] (説明)フィールドに入力した情報は、ファイル接続にマウスのポインターを移動すると、ツールヒントとして表示されます。

  2. 必要に応じて、[Version] (バージョン)フィールドと[Status] (ステータス)フィールドを設定します。リポジトリアイテムのバージョンとステータスは、[Project Settings] (プロジェクト設定)ダイアログボックスでも管理することができます。詳細は、バージョン管理およびステータス管理を参照してください。

  3. 必要に応じて、[Path] (パス)フィールドの横の[Select] (選択)ボタンをクリックし、[File regex] (正規表現ファイル)ノードの下で、作成したばかりのファイル接続を格納するフォルダーを選択します。既存の接続を編集している場合、フォルダーを選択することはできませんが、いつでも接続をドラッグして新規フォルダーにドロップできます。

  4. 一般的なプロパティの設定が終了したら、[Next] (次へ)をクリックします。

ファイルのパスと形式の定義

  1. [Browse...] (参照...)ボタンをクリックし、ローカルホストまたはLANホストでファイルを探します。

  2. [Encoding] (エンコーディング)と[Format] (形式)で、ファイルが作成されたエンコーディングタイプとOSの形式を選択します。この情報は次の手順でフィールドを自動入力するために使用されます。リストに適切な形式が含まれていない場合は、OS形式を無視します。

    [File viewer] (ファイルビューアー)で、ロードされたファイルがすぐに確認できます。

  3. [Next] (次へ)をクリックして、スキーマ構造を定義します。

ファイル解析パラメーターの定義

このビューではファイルのさまざまな設定を定義できるため、ファイルスキーマが適切に取得できるようになります。

  1. [File Settings] (ファイル設定)エリアで、フィールドと行のセパレータを設定します。

    • 必要に応じて、[Field Separator] (フィールドセパレータ)フィールドの数値を変更して、カラムの長さを正確に指定します。

    • ファイルの行セパレータが標準のEOLではない場合、[Row Separator] (行セパレータ)リストから[Custom String] (ユーザー定義文字列)を選択し、[Corresponding Character] (対応する文字)フィールドで文字列を指定します。

  2. [Regular Expression settings] (正規表現の設定)パネルに、ファイルを区切るために使用する正規表現を入力します。

    警告

    一重引用符または二重引用符で正規表現を囲むようにしてください。

  3. データの内容から除外するヘッダー行がファイルにある場合、[Rows To Skip] (スキップする行)エリアの[Header] (ヘッダー)チェックボックスをオンにし、対応するフィールドで無視する行数を定義します。また、ファイルにフッター情報が含まれていることがわかっていれば、[Footer] (フッター)チェックボックスをオンにして、無視するフッター行の数を設定します。

  4. [Limit of Rows] (行数の制限)エリアでは、解析されるファイルの拡張を制限できます。必要に応じて、[Limit] (制限)チェックボックスをオンにし、希望する行数を設定または選択します。

  5. ファイルにカラムラベルが含まれる場合、[Set heading row as column names] (最初の行をカラム名として設定)チェックボックスをオンにし、最初に解析された行をスキーマカラムのラベルにします。スキップするヘッダー行の数が1つずつ増えることに注意してください。

  6. [Refresh preview] (プレビューの更新)をクリックして、変更を有効にします。プレビューが更新されるまで、ボタンは[Stop] (停止)になっています。

  7. [Next] (次へ)をクリックして、次のビューに進み、生成された正規表現ファイルスキーマの確認とカスタマイズを行います。

ファイルスキーマの確認とカスタマイズ

  1. 必要に応じて、スキーマの名前(デフォルトはメタデータ)を変更し、スキーマカラムを編集します。

  2. 正規表現スキーマを取得または更新するには、[Guess] (推定)をクリックします。ただし、ファイルベースのスキーマを推定すると、スキーマへの編集が失われる可能性があります。

  3. 終了したら、[Finish] (終了)をクリックして、ウィザードを閉じます。

[Repository] (リポジトリ)ツリービューの該当する[File regex] (正規表現ファイル)接続ノードの下に新規スキーマが表示されます。定義したメタデータを[Repository] (リポジトリ)ツリービューから、新規コンポーネントとしてデザインワークスペースにドロップするか、既存のコンポーネントにドロップしてメタデータを再利用できます。ジョブで一元管理されるメタデータの使用方法についての詳細は、ジョブで一元化されたメタデータを使用する方法およびリポジトリスキーマを設定する方法を参照してください。

既存のファイル接続を変更するには、[Repository] (リポジトリ)ツリービューで接続を右クリックし、[Edit file regex] (正規表現ファイルの編集)を選択して、ファイルメタデータセットアップウィザードを開きます。

既存のファイル接続に新規スキーマを追加するには、[Repository] (リポジトリ)ツリービューで接続を右クリックし、コンテキストメニューから[Retrieve Schema] (スキーマ情報の取得)を選択します。

既存のファイルスキーマを編集するには、[Repository] (リポジトリ)ツリービューでスキーマを右クリックし、コンテキストメニューから[Edit Schema] (スキーマの編集)を選択します。