ドライバーに関するデータセットから固定サイズのサンプルを抽出 - Cloud

Talend Cloud Pipeline Designerプロセッサーガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Pipeline Designer
Content
ジョブデザインと開発 > パイプラインのデザイン
Last publication date
2024-02-26

テストソース、Data samplingプロセッサー、FTPデスティネーションを伴うパイプライン。

始める前に

  • ソースデータを保管するシステムへの接続が作成済みであること。

    ここでは、テスト接続を使用します。

  • ソースデータを保管するデータセットが追加済みであること。

    sampling-drivers.zipファイルをダウンロードして抽出します。問題ある運転者に関するデータ(速度、アルコール、注意散漫による死亡衝突事故に関わった運転者の割合や自動車保険の情報など)を持つデータセットが含まれています。

  • 接続および処理済みデータを保管する関連データセットも作成済みであること。

    また、出力フォルダーはFTPサーバーに保存されています。

手順

  1. [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
  2. パイプラインに意味のある名前を付けます。

    Extract a subset of data about drivers
  3. [ADD SOURCE] (ソースを追加)をクリックしてパネルを開きます。このパネルで、ソースデータ(この場合は死亡衝突事故に関わった運転者に関するデータと保険データ)を選択できます。

    運転者の保険データに関するデータサンプルのプレビュー。
  4. データセットを選択し、[Select] (選択)をクリックしてパイプラインに追加できるようにします。
    必要であれば名前を変更します。
  5. +をクリックし、パイプラインにData samplingプロセッサーを追加します。設定パネルが開きます。
  6. プロセッサーに意味のある名前を付けます。

    extract 5 records
  7. [Configuration] (設定)エリアで以下の操作を行います。
    1. ランダムに選択された5つのレコードだけで元のデータセットのサブセットを作成したい場合は、[Number of records] (レコード数)フィールドに5と入力します。
  8. [Save] (保存)をクリックして設定を保存します。

    プロセッサーのプレビューに注目し、操作前のデータと結合後のデータを比較します。

    ランダムに選択された5つのレコードだけが含まれるサブセットが出力に作成されていることがわかります。

    ソースデータセットから5つのランダムレコードを抽出した後のData samplingプロセッサーのプレビュー。
  9. [ADD DESTINATION] (デスティネーションを追加)をクリックし、データのサブセットを保持するFTPフォルダーを選択します。
    必要であれば名前を変更します。
  10. Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
  11. リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、指定したレコード数に基づいてデータのサブセットが作成され、指定したFTPフォルダーに出力が送られます。これらのデータのサブセットはデータサイエンティストが予測分析に使用します。