始める前に
-
ソースデータを保管するシステムへの接続が作成済みであること。
ここでは、テスト接続を使用します。
-
ソースデータを保管するデータセットが追加済みであること。
numbers-airlines.zipファイルをダウンロードして抽出します。航空会社に関するデータ(事件や事故の発生件数、死亡者数など)が含まれています。
-
接続および処理済みデータを保管する関連データセットも作成済みであること。
ここではテストデータセットを使用します。
手順
-
[Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
-
パイプラインに意味のある名前を付けます。
例
Compare number of air crashes and filter airlines
-
[ADD SOURCE] (ソースを追加)をクリックしてパネルを開きます。このパネルで、ソースデータ(この場合は航空会社と墜落事故に関するデータ)を選択できます。
例
-
データセットを選択し、[Select] (選択)をクリックしてパイプラインに追加できるようにします。
必要であれば名前を変更します。
-
をクリックし、パイプラインにNumberプロセッサーを追加します。設定パネルが開きます。
-
プロセッサーに意味のある名前を付けます。
例
compare number of fatal accidents
-
[Configuration] (設定)エリアで以下の操作を行います。
-
[Function name] (ファンクション名)リストで、[Compare numbers] (数値を比較)を選択します。
-
[Fields to process] (処理するフィールド)リストで.fatal_accidents_85_99を選択し、このフィールドの値(死亡事故の件数)をカスタム値と比較します。
-
[Create new column] (新しいカラムを作成)オプションを有効にして、comparisonという名前を付けます。
-
[Compare mode] (比較モード)リストで[greater or equals than] (以上)を選択し、[Use with] (併用)リストで[Value] (値)を選択し、[Value] (値)フィールドに2を入力します。このようにして、航空会社ごとの死亡事故の件数を比較して、死亡事故が2件以上ある航空会社を確認することができます。
-
[Save] (保存)をクリックして設定を保存します。
比較の前後のデータのプレビューを表示できます。
値が比較され、死亡事故が2件以上あった航空会社(true)と2件未満の航空会社(false)を新しいフィールドに表示することができます。
-
をクリックし、パイプラインにFilterプロセッサーを追加します。設定パネルが開きます。
-
プロセッサーに意味のある名前を付けます。
例
airlines with at least 2 fatal accidents
-
[Filters] (フィルター)エリアで次の操作を行います。
-
[Input] (入力)リストで.comparisonを選択し、この値に基づいて航空会社をフィルタリングします。
-
レコードのフィルタリング時にファンクションを適用したくないので、[Optionally select a function to apply] (適用するファンクションをオプションとして選択)リストで[None] (なし)を選択します。
-
[Operator] (演算子)リストで==を選択して[Value] (値)リストにtrueと入力し、"2件以上の死亡事故"の要件を満たす航空会社でフィルタリングします。
-
[Save] (保存)をクリックして設定を保存します。
プロセッサーのプレビューに注目し、操作前のデータと結合後のデータを比較します。
-
[ADD DESTINATION] (デスティネーションを追加)をクリックし、処理済みデータを保持するデータセットを選択します。
必要であれば名前を変更します。
-
Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
-
リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。
タスクの結果
パイプラインが実行中です。データは指定した条件に従って比較およびフィルタリングされ、その結果、このデータセット内の19の航空会社で2回以上の死亡事故が発生していることがわかります。 出力は指定したターゲットシステムに送信されます。