CSVファイルのクリーンアップとフィルタリング - 7.3

処理(インテグレーション)

Version
7.3
Language
日本語 (日本)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Open Studio for Big Data
Talend Open Studio for Data Integration
Talend Open Studio for ESB
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > サードパーティーシステム > 変換処理コンポーネント
データガバナンス > サードパーティーシステム > 変換処理コンポーネント
データクオリティとプレパレーション > サードパーティーシステム > 変換処理コンポーネント

このジョブでは、csvファイル内のさまざまな誤入力や欠陥を検索および置換し、最終出力で新しいcsvファイルを生成する前にカラムのフィルタリングを実行します。

Talendでサポートされているテクノロジーの詳細は、Talendコンポーネントを参照してください。

  • 次のコンポーネント、tFileInputDelimitedtReplacetFilterColumntFileOutputDelimitedを、[Palette] (パレット)からデザインワークスペースにドロップします。

  • [Main Row] (メイン行)接続を使用し、各コンポーネントを右クリックして、コンポーネントを接続します。

  • tFileInputDelimitedコンポーネントを選択し、入力フローパラメーターを設定します。

  • [File] (ファイル)は、ローカルに保存された単純なcsvファイルです。[Row Separator] (行区切り)はキャリッジリターンで、[Field Separator] (フィールド区切り)はセミコロンです。[Header] (ヘッダー)にはカラム名が設定されており、[Footer] (フッター)[Limit] (制限)も設定しません。

  • ファイルには次のような文字が含まれています: *t, .Nikson: これはNixonに変換します。streat: これはStreetに変換します。

  • このファイルのスキーマは組み込まれており、さまざまな型(文字列または整数)のカラム4つで構成されています。

  • ここで、tReplaceコンポーネントを選択し、検索と置換のパラメーターを設定します。

  • スキーマは入力フローと同期できます。

  • [Simple mode] (単純モード)チェックボックスをオンにします。検索パラメーターは、正規表現を使用せずに簡単に設定できるからです。

  • [+]記号をクリックし、パラメーターテーブルに行を追加します。

  • 最初のパラメーター行で、InputColumnAmountを選択します。[Search] (検索)フィールドに"."と入力し、[Replace] (置換)フィールドに","と入力します。

  • 2番目のパラメーター行で、InputColumnStreetを選択します。[Search] (検索)フィールドに"streat"と入力し、[Replace] (置換)フィールドに"Street"と入力します。

  • 3番目のパラメーター行で、InputColumnに再びAmountを選択します。[Search] (検索)フィールドに"$"と入力し、[Replace] (置換)フィールドに"£"と入力します。

  • 4番目のパラメーター行で、InputColumnNameを選択します。[Search] (検索)フィールドに"Nikson"と入力し、[Replace] (置換)フィールドに"Nixon"と入力します。

  • 5番目のパラメーター行で、InputColumnFirstnameを選択します。[Search] (検索)フィールドに、"*t"と入力し、二重引用符の間に何も入力せずに置換します。

  • 上級モードはこのシナリオでは使用しません。

  • ジョブ内の次のコンポーネント、tFilterColumnを選択します。

  • tFilterColumnコンポーネントにはスキーマエディターが含まれており、入力スキーマのカラム名に基づいて出力スキーマをビルドできます。このユースケースでは、empty_fieldという新しい名前のカラムを追加し、入力スキーマカラムの順序を変更して、次のスキーマを取得します: empty_field, Firstname, Name, Street, Amount

  • [OK]をクリックして確定します。

  • tFileOutputDelimitedプロパティを手動で設定します。

  • スキーマはこのシナリオに組み込まれており、ジョブ内の前のコンポーネントに由来します。

  • ジョブを保存し、[F6]を押して実行します。

最初のカラムは空で、残りのカラムは寄生文字からクリーンアップされており、NiksonNixonに置換されています。streetカラムは移動しており、通貨記号と共に10進数区切りはドットからコンマに変わっています。