メイン コンテンツをスキップする 補完的コンテンツへスキップ

テートギャラリーのアーティストのレコードを重複除去して選択

ソース、Field selectorプロセッサー、デスティネーションを伴うパイプライン。

始める前に

  • ソースデータを保管するデータセットが追加済みであること。

    field_selector-artists.zipファイルをダウンロードして抽出します。ロンドンにあるテートギャラリーのアーティストのデータセット(名前、生年月日、日付、テートWebサイト内の紹介URLなど)が含まれていますが、中には重複している名前もあります。

  • 接続および処理済みデータを保管する関連データセットも作成済みであること。

    ここでは、テスト接続に保存されたファイルを使います。

手順

  1. [Pipelines] (パイプライン)ページで[Add pipeline] (パイプラインを追加)をクリックします。新しいパイプラインが開きます。
  2. パイプラインに意味のある名前を付けます。

    Select deduplicated artists
  3. [ADD SOURCE] (ソースを追加)をクリックし、開いたパネルでソースデータ(この場合は一部重複しているテートのアーティストのリスト)を選択します。
    Tateアーティストのレコードを持つデータサンプルのプレビュー。
  4. データセットを選択し、[Select] (選択)をクリックしてパイプラインに追加できるようにします。
    必要であれば名前を変更します。
  5. +をクリックし、パイプラインにField selectorプロセッサーを追加します。設定パネルが開きます。
  6. プロセッサーに意味のある名前を付けます。

    select fields with distinct
  7. 重複が除去され、異なる値を持つフィールドのみが返されるよう、[Distinct] (個別)オプションを有効にします。
  8. [Simple] (シンプル)モードで[Edit] (編集)アイコンをクリックし、[Select fields] (フィールドを選択)ウィンドウを表示します。
    1. アーティスト名に関連するフィールドを選択して名前を変更する場合は、[Input] (入力)リストでnameを選択し、[Output] (出力)リストにfull_nameと入力します。
    2. アーティストの誕生年に関するフィールドを選択して名前を変更する場合は、[Input] (入力)リストでyearOfBirthを選択し、[Output] (出力)リストにyear_of_birthと入力します。
    3. アーティストの逝去年に関するフィールドを選択して名前を変更する場合は、[Input] (入力)リストでyearOfDeathを選択し、[Output] (出力)リストにyear_of_deathと入力します。
      フィールドセレクター設定パネルに、[Distinct] (個別)オプションが有効な状態で選択された3つのフィールドが表示されている。
  9. [Save] (保存)をクリックして設定を保存します。

    プロセッサーのプレビューに注目し、選択と重複除去の操作前と操作後のデータを比較します。アーティスト名の重複が除去され、異なる値を持つフィールドのみが返されるようになります。

    レコード重複除去後のField selectorプロセッサーのプレビュー。
  10. [ADD DESTINATION] (デスティネーションを追加)をクリックし、再編成済みのデータを保持するデータセットを選択します。
    必要であれば名前を変更します。
  11. Talend Cloud Pipeline Designerの上部ツールバーで[Run] (実行)ボタンをクリックするとパネルが開き、実行プロファイルを選択できるようになります。
  12. リストで実行プロファイルを選択し(詳細は実行プロファイルをご覧ください)、[Run] (実行)をクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中となり、データは記述した条件に基づいて再編成され、出力は指定したターゲットシステムに送信されます。

このページは役に立ちましたか?

このページまたはコンテンツに、タイポ、ステップの省略、技術的エラーなどの問題が見つかった場合は、お知らせください。改善に役立たせていただきます。