ここでは、emailカラムの内容が標準の電子メール形式に一致するように、postalカラムが米国の標準の郵便番号形式に一致するようにします。
これにより、電子メールと郵便番号の内容、構造、品質が定義され、標準形式に一致するデータと一致しないデータの割合がわかります。
手順
-
[Analyzed Columns] (分析済みカラム)ビューで、電子メールの横にある
アイコンをクリックし、[Pattern Selector] (パターン選択)ダイアログボックスを開きます。
-
の順に展開し、[Email Address] (電子メールアドレス)チェックボックスをオンにして、[OK]をクリックしてダイアログボックスを閉じます。
-
[Email Address] (電子メールアドレス)インジケーターの横にある
アイコンをクリックし、[Lower threshold (%)] (下限のスレッショルド(%))フィールドを98.0に設定します。
パターンに一致するレコードの数が98%を下回ると、分析結果の値が赤色で示されます。
-
同じ手順を繰り返して、postalカラムに[address]フォルダーから[US Zipcode Validation] (米国の郵便番号検証)パターンを追加します。
データ分析に利用するパターンのタイプとその利用方法については、Talend Studioユーザーガイドを参照してください。