手順
-
tFileInputDelimitedコンポーネントをダブルクリックして、[Component] (コンポーネント)タブで[Basic settings] (基本設定)ビューを開きます。
-
[File name/Stream] (ファイル名/ストリーム)フィールドの横にある[...]ボタンをクリックして、情報を抽出するファイルを参照します。
このシナリオで使用される入力ファイルは、test4と呼ばれます。id、email、ageの3つのカラムを持つテキストファイルです。
id;email;age 1;anna@yahoo.net;24 2;diana@sohu.com;31 3;fiona@gmail.org;20
詳細は、tFileInputDelimitedをご覧ください。 - [Edit Schema] (スキーマを編集)をクリックして、この入力ファイルのデータストラクチャーを定義します。
-
tExtractRegexFieldsコンポーネントをダブルクリックして、[Basic settings] (基本設定)ビューを開きます。
- [Field to split] (分割するフィールド)リストから分割するカラムを選択します。このシナリオではemailです。
-
[Regex] (正規表現)パネルでデータマッチングを実行する正規表現を入力します。このシナリオでは、正規表現
"([a-z]*)@([a-z]*).([a-z]*)"
がメールアドレスの3つの部分(ユーザー名、ドメイン名、TLD名)のマッチングに使われます。正規表現については、http://en.wikipedia.org/wiki/Regular_expressionをご覧ください。 -
[Edit Schema] (スキーマを編集)をクリックして[Schema of tExtractRegexFields] (tExtractRegexFieldsのスキーマ)ダイアログボックスを開き、プラスボタンをクリックして出力スキーマの5つのカラムを追加します。
このシナリオでは、入力emailカラムを出力フローname、domain、およびtld の3つのカラムに分割します。他の2つの入力カラムはそのまま抽出されます。
- tLogRow コンポーネントをダブルクリックし、[Component] (コンポーネント)ビューを開きます。
- [Mode] (モード)エリアで、[Table (print values in cells of a table)] (テーブル(テーブルのセルの出力値))を選択します。