パターンを設定する - 7.0

Talend Real-Time Big Data Platform入門ガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Real-Time Big Data Platform
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
このカラム分析では、事前定義されたパターンを使用して、電子メールおよび電話番号のカラムの内容をそれぞれ、標準の電子メールおよび米国の電話番号パターンと照合します。これにより、電子メールと電話番号の内容、ストラクチャー、品質が定義され、標準形式に一致するデータと一致しないデータの割合がわかります。

始める前に

  • StudioでProfilingパースペクティブを開いていること。

  • カラム分析が作成済みで、データベースへの接続が定義済みであること。詳細は、それぞれカラム分析の定義およびデータベース接続の作成を参照して下さい。

手順

  1. 分析エディターの[Data Preview] (データプレビュー)セクションで、Emailカラムの横にあるアイコンをクリックし、[Pattern Selector] (パターン選択)ダイアログボックスを開きます。
  2. [Regex] (正規表現) > [internet] (インターネット)の順に展開し、[Email Address] (電子メールアドレス)チェックボックスをオンにして、[OK]をクリックしてダイアログボックスを閉じます。

    パターンが[Analyzed Columns] (分析対象カラム)セクションのカラムに追加されます。

  3. Phoneカラムのとなりのアイコンをクリックし、[Pattern Selector] (パターン選択)ダイアログボックスを開きます。
  4. [Regex] (正規表現) > [phone] (電話)の順に展開し、[US phone numbers] (米国の電話番号)チェックボックスをオンにして、[OK]をクリックしてダイアログボックスを閉じます。

    パターンが[Analyzed Columns] (分析対象カラム)セクションのカラムに追加されます。

  5. [Email Address] (電子メールアドレス)[US phone numbers] (米国の電話番号)パターンのとなりのアイコンをクリックし、[Lower threshold (%)] (下限しきい値(%))フィールドを98.0に設定します。

    パターンに一致するレコードの数が98%を下回ると、分析結果の値が赤色で示されます。