一致しない値を除去 - 7.3

Talend Real-Time Big Data Platform 入門ガイド

Version
7.3
Language
日本語
Operating system
Real-Time Big Data Platform
Product
Talend Real-Time Big Data Platform
Module
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
Content
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
Last publication date
2023-07-24

メールと電話番号のカラムに使用されているパターンの結果は、標準のメール形式や電話番号形式に適合しないレコードがあることを示しています。詳細は分析結果を表示をチェックしてください。

分析結果から、一致しない行をカラムから再取得する標準ジョブを生成できます。

同じ手順を使って、メールまたは電話番号のカラムからも一致しない値を除去できます。

始める前に

  • Studioで Profiling パースペクティブを開いていること。

  • カラム分析を作成し、実行済みであること。詳細は、データの異常を識別を参照してください。

手順

  1. Profilingパースペクティブでカラム分析を開き、エディターの下部にある[Analysis Results] (分析結果)をクリックします。
  2. EmailまたはPhoneカラムの[Pattern Matching] (パターンマッチング)テーブルで、結果を右クリックし、[Generate Job] (ジョブの生成)を選択します。

    この例では、電話番号カラムに使用されている[US Phone numbers] (米国の電話番号)パターンの結果を使用します。

  3. ウィザードが開いたら、[Finish] (終了)をクリックしてジョブの作成を確定します。

    Integrationパースペクティブが開き、生成されたジョブは表示されて、[Repository] (リポジトリー)ツリービュー内にリスト表示されます。

    このジョブは[Extract Transform Load] (抽出、変換、ロード)プロセスを使用して、2つの個別の出力ファイルに、パターンと一致する/一致しない電話番号行を書き込みます。

    tMysqlInputは接続に従って自動的に設定され、tPatternCheckは分析するカラムに従って自動的に設定されます。

  4. 各出力コンポーネントをダブルクリックし、必要に応じて出力ファイルのデフォルトの名前またはパスを変更します。
  5. [F6]を押してジョブを実行します。

    一致する/しない電話番号が、2つの個別の出力ファイルに書き込まれます。

  6. tFileOutputDelimitedコンポーネントを右クリックし、[Data Viewer] (データビューアー)を選択し、電話番号パターンに一致する/しないデータのビューを開きます。

タスクの結果

続いて、たとえばパターンに一致する電話番号を標準化し、tStandardizePhoneNumberコンポーネントを使用して正しい国際形式にするジョブをデザインできます。