このシナリオでは、avpath構文を使ってユーザーの年齢、投票、騒音レベルの条件に基づいてレストランのレビューをフィルタリングします。
始める前に
-
ソースデータを保管するシステムへの接続が作成済みであること。ここではS3バケットへの接続です。詳細は、接続を作成をご覧ください。
-
ソースデータを保管するデータセットが追加済みであること。
restaurant_reviews.zipファイルをダウンロードして抽出します。レストランとユーザーに関するレコードがネスト化したレビューが含まれています。詳細は、データセットを作成をご覧ください。
-
接続および処理済みデータを保管する関連データセットも作成済みであること。
手順
-
[Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
-
パイプラインに意味のある名前を付けます。
例
Filter restaurant reviews
-
[ADD SOURCE] (ソースを追加)をクリックしてパネルを開くと、ソースデータを選択できます。ここではレストランのレビューです。
-
データセットを選択し、[Select] (選択)をクリックしてパイプラインに追加できるようにします。
必要であれば名前を変更します。
-
をクリックし、パイプラインにFilterプロセッサーを追加します。[Configuration] (設定)パネルが開きます。
-
プロセッサーにわかりやすい名前(with reviews by at least 20 helpful old peopleなど)を付けます。
-
[Filter] (フィルター)エリアで次の操作を行います。
-
[Input] (入力)エリアに.reviews{.user.age >= 60 && .user.user_votes.helpful > 20}と入力し、60歳以上で「役に立った」と投票しているユーザーが少なくとも20人以上いるユーザーのレビューのみを表示します。
-
[Optionally select a function to apply] (適用する機能をオプションとして選択)リストの[Count] (カウント)を選択し、[Operator] (オペレーター)ボックスの一覧から[>=]をクリックして、20件以上のユーザーレビューを抽出するため[Value] (値)リストに20と入力します。
-
[Save] (保存)をクリックして設定を保存します。
-
を再びクリックし、パイプラインにFilterプロセッサーをもう1つ追加します。[Configuration] (設定)パネルが開きます。
-
このプロセッサーにわかりやすい名前(with quiet noise levelなど)を付けます。
-
[Filter] (フィルター)エリアで次の操作を行います。
-
[Input] (入力)リストで.business.attributes.noise_levelを選択し、レストランを騒音レベルでフィルタリングします。
-
[Optionally select a function to apply] (適用する機能をオプションとして選択)リストから[None] (なし)を選択し、[Operator] (オペレーター)リストから[==]を選択して、静かな騒音レベルのレストランでフィルタリングするため、[Value] (値)リストにquietと入力します。
-
[Save] (保存)をクリックして設定を保存します。
-
パイプラインの[ADD DESTINATION] (デスティネーションを追加)項目をクリックしてパネルを開くと、フィルタリングされたデータを保持するデータセットを選択できます。
-
デスティネーションにわかりやすい名前(perfect restaurants for old hipstersなど)を付けます。
-
オプションとして、Filterプロセッサーに注目し、フィルタリング操作後のデータをプレビューおよび比較します。
-
Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
-
リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。
タスクの結果
パイプラインは実行中となり、avpathで記述した条件に基づいてデータがフィルタリングされ、指定したターゲットシステムに出力が送られます。