avpathを使用した特定のレコードの選択 - Cloud

Talend Cloud Pipeline Designerユーザーガイド

Version
Cloud
Language
日本語 (日本)
Product
Talend Cloud
Module
Talend Pipeline Designer
Content
ジョブデザインと開発 > パイプラインのデザイン
デプロイメント > デプロイ中 > パイプラインの実行
データガバナンス > データのフィルタリング
データクオリティとプレパレーション > データのフィルタリング
データクオリティとプレパレーション > データセットの管理
管理と監視 > ログの監視
管理と監視 > 実行の監視

このシナリオでは、avpath構文を使ってユーザーの年齢、投票、騒音レベルの条件に基づいてレストランのレビューをフィルタリングします。

始める前に

  • ソースデータを保管するシステムへの接続が作成済みであること。ここではS3バケットへの接続です。詳細は、接続の作成を参照してください。

  • ソースデータを保管するデータセットが追加済みであること。

    ここでは、レストランとユーザー情報に関するネスト型レコードを伴うレストランのレビュー使用します。このページの左側パネルにある[Downloads] (ダウンロード)タブからrestaurant_reviews.avroをダウンロードします。詳細は、データセットの作成を参照してください。

  • 接続および処理済みデータを保管する関連データセットも作成済みであること。

手順

  1. [Pipelines] (パイプライン)ページで[ADD PIPELINE] (パイプラインの追加)をクリックします。新しいパイプラインが開きます。
  2. パイプラインに意味のある名前を付けます。

    例え

    Filter restaurant reviews
  3. [ADD SOURCE] (ソースの追加)をクリックしてパネルを開くと、ソースデータを選択できます。ここではレストランのレビューです。
  4. データセットを選択し、[SELECT] (選択)をクリックしてパイプラインに追加します。
    必要であれば名前を変更します。
  5. をクリックし、パイプラインに[Filter] (フィルター)プロセッサーを追加します。[Configuration] (運用設定)パネルが開きます。
  6. このプロセッサーにわかりやすい名前(with reviews by at least 20 helpful seniorsなど)を付けます。
  7. [Filter] (フィルター)エリアで次の操作を行います。
    1. [Input] (入力)エリアに.reviews{.user.age >= 60 && .user.user_votes.helpful > 20}と入力し、60歳以上で「役に立った」と投票しているユーザーが少なくとも20人以上いるユーザーのレビューのみを表示します。
    2. [Optionally select a function to apply] (適用する機能をオプションとして選択)リストの[COUNT] (カウント)を選択し、[Operator] (オペレーター)ボックスの一覧から[>=]をクリックして、20件以上のユーザーレビューを抽出するため[Value] (値)リストに20と入力します。
  8. [Save] (保存)をクリックして設定を保存します。
  9. をクリックして、パイプラインに別の[Filter] (フィルター)プロセッサーを追加します。[Configuration] (運用設定)パネルが開きます。
  10. このプロセッサーにわかりやすい名前(with quiet noise levelなど)を付けます。
  11. [Filter] (フィルター)エリアで次の操作を行います。
    1. [Input] (入力)リストで.business.attributes.noise_levelを選択し、レストランを騒音レベルでフィルタリングします。
    2. [Optionally select a function to apply] (適用する機能をオプションとして選択)リストから[NONE] (なし)を選択し、[Operator] (オペレーター)リストから[==]を選択して、静かな騒音レベルのレストランでフィルタリングするため、[Value] (値)リストにquietと入力します。
  12. [Save] (保存)をクリックして設定を保存します。
  13. パイプラインの[ADD DESTINATION] (デスティネーションの追加)アイテムをクリックしてパネルを開くと、フィルタリングされたデータを保持するデータセットを選択できます。
  14. [Destination] (デスティネーション)にperfect restaurants for senior hipstersのようなわかりやすい名前を付けます。
  15. オプションとして、[Filter] (フィルター)プロセッサーに注目し、フィルタリング操作後のデータをプレビューおよび比較します。
  16. Talend Cloud Pipeline Designerの上部のツールバーで、リストから実行プロファイルを選択します(詳細は実行プロファイルを参照してください)。
  17. 実行アイコンをクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、avpathで記述した条件に基づいてデータがフィルタリングされ、指定したターゲットシステムに出力が送られます。