収穫作物に関する文字列の処理 - Cloud

Talend Cloud Pipeline Designerプロセッサーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発 > パイプラインのデザイン
EnrichPlatform
Talend Pipeline Designer

始める前に

  • ソースデータを保管するシステムへの接続が作成済みであること。

    ここではAmazon S3接続を使用します。

  • ソースデータを保管するデータセットが追加済みであること。

    ここでは、マリにおける収穫作物に関するデータ(作物タイプ、生産額、収穫エリアなど)が含まれているデータセットを使用します。このページの左側パネルにある[Downloads] (ダウンロード)タブからstring-crops.csvファイルをダウンロードします。

  • 接続および処理済みデータを保管する関連データセットも作成済みであること。

    ここでは、同じS3バケットに保存されているデータセットを使用します。

手順

  1. [Pipelines] (パイプライン)ページで[ADD PIPELINE] (パイプラインの追加)をクリックします。新しいパイプラインが開きます。
  2. パイプラインに意味のある名前を付けます。

    例え

    Process strings about harvested crops
  3. [ADD SOURCE] (ソースの追加)をクリックし、ソースデータを選択できるパネルを開きます。ここでは、2005年のマリにおける収穫作物に関するデータを使用します。

    例え

  4. データセットを選択し、[SELECT] (選択)をクリックしてパイプラインに追加します。
    必要であれば名前を変更します。
  5. をクリックし、パイプラインに[Strings] (文字列)プロセッサーを追加します。設定パネルが開きます。
  6. プロセッサーに意味のある名前を付けます。

    例え

    change crop types to upper case
  7. [CONFIGURATION] (運用設定)エリアで以下の操作を行います。
    1. [Function name] (機能名)リストで[Change to upper case] (大文字に変換)を選択します。
    2. 作物タイプの値を大文字に変更する場合は、[Column to process] (処理するフィールド)リストで.crop_parentを選択します。
  8. [Save] (保存)をクリックして設定を保存します。

    プロセッサーのプレビューに注目し、操作前のデータと結合後のデータを比較します。

  9. をクリックし、パイプラインに別の[Strings] (文字列)プロセッサーを追加します。設定パネルが開きます。
  10. プロセッサーに意味のある名前を付けます。

    例え

    match crop IDs with IDs
  11. [CONFIGURATION] (運用設定)エリアで以下の操作を行います。
    1. [Function name] (機能名)リストで[Match similar text] (同様のテキストに一致)を選択します。
    2. [Fields to process] (処理するフィールド)リストで.cropを選択します。
    3. 作物名IDとレコードIDを比較する場合は、[Use with] (次を使用)リストで[Other column] (その他のカラム)を、[Column] (カラム)リストで.idをそれぞれ選択します。
    4. 2つのフィールド値を完全一致させる場合は、ファジー度フィールドに0を入力します。
  12. [Save] (保存)をクリックして設定を保存します。

    プロセッサーのプレビューに注目し、操作前のデータと結合後のデータを比較します。新しいカラムであるcrop_matchesを見ると、完全一致にはtrue値が、一致しないIDにはfalse値があることがわかります。

  13. [ADD DESTINATION] (デスティネーションの追加)アイテムをクリックし、処理済みデータを保存するデータセットを選択します。
    必要であれば名前を変更します。
  14. Talend Cloud Pipeline Designerの上部のツールバーで、リストから実行プロファイルを選択します(詳細は実行プロファイルを参照してください)。
  15. 実行アイコンをクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、選択された文字列は処理され、出力フローは指定したS3バケットに送信されます。