メイン コンテンツをスキップする 補完的コンテンツへスキップ

有効なセマンティックタイプと無効なセマンティックタイプに基づいて顧客データをフィルタリング

ソースデータセット、Field Selectorプロセッサー、Semantic filterプロセッサー、2つのテストデスティネーションを伴うパイプライン。

始める前に

  • ソースデータを保管するシステムへの接続が作成済みであること。

    ここでは、テスト接続を使用します。

  • ソースデータを保管するデータセットが追加済みであること。

    semantic_filter-customers.zipファイルをダウンロードして抽出します。このドキュメントに添付されるローデータを持つ顧客リストが含まれています。

  • 接続および処理済みデータを保管する関連データセットも作成済みであること。

    ここでは、ファイルは2つのテストデータセットにも保管されます。

手順

  1. [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
  2. パイプラインに意味のある名前を付けます。

    Filtering customer data based on semantic type
  3. [ADD SOURCE] (ソースを追加)をクリックしてパネルを開きます。このパネルで、ソースデータ(この場合は生データ(整合性のないフィールドの小文字と大文字、空のフィールドなど)を含む顧客のリストと事前発見済みのセマンティックタイプ)を選択できます。

    事前検出されたセマンティックタイプを持つ顧客に関するデータサンプルのプレビュー。
  4. データセットを選択し、[Select] (選択)をクリックしてパイプラインに追加できるようにします。
    必要であれば名前を変更します。
  5. +をクリックし、パイプラインにField selectorプロセッサーを追加します。設定パネルが開きます。
  6. プロセッサーに意味のある名前を付けます。

    restructure fields
  7. [Configuration] (運用設定)タブから:
    1. [Simple] (シンプル)選択モードで[Edit] (編集)アイコンをクリックし、ツリービューを開きます。ここで、保持したいフィールドを選択して名前を変更できます。
    2. ツリービューで[ID][FIRSTNAME][LASTNAME][STATE][company_name][EMAIL]というフィールドを選択します。
    3. そのフィールドの横にある[Rename] (名前を変更)アイコンをクリックし、それぞれIDFirstnameLastnameStateCompanyNameEmailと名前を変更します。
  8. [Save] (保存)をクリックして設定を保存します。

    プロセッサーのプレビューに注目し、選択操作と名前変更操作の前後のデータを比較します。

    顧客レコードの再編成後のField selectorプロセッサーのプレビュー。
  9. +をクリックし、パイプラインにSemantic filterプロセッサーを追加します。[Configuration] (設定)パネルが開きます。
  10. プロセッサーに意味のある名前を付けます。

    filter on valid US phones and emails
  11. [Filters] (フィルター)エリアで次の操作を行います。
    1. 関連付けられているセマンティックタイプに従って、このフィールドをフィルターしたい場合は、[Input] (入力)リスト内の[.PhoneNumber] (電話番号)を選択します: 電話番号。
    2. 電話番号セマンティックタイプに対して一致させた後に有効値を保持したい場合は、[Keep only] (のみ保持)リストで[Valid] (有効)を選択します。
    3. 関連付けられているセマンティックタイプに従って、このフィールドをフィルターしたい場合は、別のフィルターを追加し、[Input] (入力)リスト内の[Email] (メールアドレス)を選択します: メールアドレス。
    4. メールアドレスセマンティックタイプに対して一致させた後に有効値を保持したい場合は、[Keep only] (のみ保持)リストで[Valid] (有効)を選択します。
  12. [Save] (保存)をクリックして設定を保存します。

    プロセッサーのプレビューに注目し、フィルタリング操作前後のデータを比較します: セマンティックタイプと一致させると、無効なメールアドレス値(メールアドレスの@記号が抜けています)が1つと無効な電話番号値(数字が抜けています)を含むレコードが2つあることがわかります。

    有効な電話番号とメールレコードをフィルタリングした後のSemantic filterプロセッサーのプレビュー。
  13. Semantic filterプロセッサーの後にある[ADD DESTINATION] (デスティネーションを追加)ボタンをクリックし、フィルター基準に一致するデータを保持するデータセットを追加および選択します: 有効な値を含むデータ。
    必要であれば名前を変更します。
  14. Semantic filterプロセッサーにある[Doesn't match filter] (フィルターに一致しない)ボタンをクリックし、[ADD DESTINATION] (デスティネーションを選択)項目をクリックして、リジェクトされたデータを保持するデータセットを選択します。無効な値を含むデータ。
  15. デスティネーションに意味のある名前を付けます。

    invalid customer data
  16. Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
  17. リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、選択したセマンティックタイプに基づいてデータがフィルタリングされ、指定したデスティネーションに出力フローが送られます。

次のタスク

また、無効なレコードをData Stewardshipキャンペーンのデスティネーションに送信することも可能です。これによってデータスチュワードは無効なデータを確認して修正できます。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。