パターンを設定する - 7.1

顧客データのプロファイリング

EnrichVersion
7.1
EnrichProdName
Talend Big Data Platform
Talend Data Fabric
Talend Data Management Platform
Talend Data Services Platform
Talend MDM Platform
Talend Open Studio for Data Quality
Talend Open Studio for MDM
Talend Real-Time Big Data Platform
EnrichPlatform
Talend Studio
task
ジョブデザインと開発
データクオリティとプレパレーション
データクオリティとプレパレーション > データプロファイリング

ここでは、emailカラムの内容が標準の電子メール形式に一致するように、postalカラムが米国の標準の郵便番号形式に一致するようにします。

これにより、電子メールと郵便番号の内容、構造、品質が定義され、標準形式に一致するデータと一致しないデータの割合がわかります。

手順

  1. [Analyzed Columns] (分析対象カラム)ビューで、emailの横にあるアイコンをクリックします。
  2. [Pattern Selector] (パターン選択)ダイアログボックスで、[Regex] (正規表現)を展開し、[internet] (インターネット)フォルダーで[Email Address] (電子メールアドレス)を選択し、[OK]をクリックします。
  3. Email Address (電子メール)インジケーターの横にあるオプションアイコンをクリックし、[Lower threshold (%)] (下限のスレッショルド(%))フィールドを98.0に設定します。
    パターンに一致するレコードの数が98%を下回ると、分析結果の値が赤色で示されます。
  4. 同じ手順を繰り返して、postalカラムに[address]フォルダーから[US Zipcode Validation] (米国の郵便番号検証)パターンを追加します。

    データ分析に利用するパターンのタイプとその利用方法については、Talend Studioユーザーガイドを参照して下さい。