コンポーネントを設定 - 7.3

Data extraction

Version
7.3
Language
日本語
Product
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > データクオリティコンポーネント > データクオリティ
データガバナンス > サードパーティーシステム > データクオリティコンポーネント > データクオリティ
データクオリティとプレパレーション > サードパーティーシステム > データクオリティコンポーネント > データクオリティ
Last publication date
2024-02-22

手順

  1. tFileInputDelimitedコンポーネントをダブルクリックして、[Component] (コンポーネント)タブで[Basic settings] (基本設定)ビューを開きます。
  2. [File name/Stream] (ファイル名/ストリーム)フィールドの横にある[...]ボタンをクリックして、情報を抽出するファイルを参照します。
    このシナリオで使用される入力ファイルは、test4と呼ばれます。idemailageの3つのカラムを持つテキストファイルです。
    id;email;age
    1;anna@yahoo.net;24
    2;diana@sohu.com;31
    3;fiona@gmail.org;20
    詳細は、tFileInputDelimitedをご覧ください。
  3. [Edit Schema] (スキーマを編集)をクリックして、この入力ファイルのデータストラクチャーを定義します。
  4. tExtractRegexFieldsコンポーネントをダブルクリックして、[Basic settings] (基本設定)ビューを開きます。
  5. [Field to split] (分割するフィールド)リストから分割するカラムを選択します。このシナリオではemailです。
  6. [Regex] (正規表現)パネルでデータマッチングを実行する正規表現を入力します。このシナリオでは、正規表現"([a-z]*)@([a-z]*).([a-z]*)"がメールアドレスの3つの部分(ユーザー名、ドメイン名、TLD名)のマッチングに使われます。
    正規表現については、http://en.wikipedia.org/wiki/Regular_expressionをご覧ください。
  7. [Edit Schema] (スキーマを編集)をクリックして[Schema of tExtractRegexFields] (tExtractRegexFieldsのスキーマ)ダイアログボックスを開き、プラスボタンをクリックして出力スキーマの5つのカラムを追加します。
    このシナリオでは、入力emailカラムを出力フローname、domain、およびtld の3つのカラムに分割します。他の2つの入力カラムはそのまま抽出されます。
  8. tLogRow コンポーネントをダブルクリックし、[Component] (コンポーネント)ビューを開きます。
  9. [Mode] (モード)エリアで、[Table (print values in cells of a table)] (テーブル(テーブルのセルの出力値))を選択します。