複雑なレコードの正規化 - Cloud

Talend Cloud Pipeline Designerプロセッサーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発 > パイプラインのデザイン
EnrichPlatform
Talend Pipeline Designer

始める前に

  • ソースデータを保管するシステムへの接続が作成済みであること。

    ここではAmazon S3接続を例に取ります。

  • ソースデータを保管するデータセットが追加済みであること。

    これが、 ID、名前、国、その他を含む俳優に関する階層データです。

  • 接続および処理済みデータを保管する関連データセットも作成済みであること。

    ここではAmazon S3に保存されているファイルを例に取ります。

手順

  1. [Pipelines] (パイプライン)ページで[ADD PIPELINE] (パイプラインの追加)をクリックします。新しいパイプラインが開きます。
  2. パイプラインに意味のある名前を付けます。

    例え

    Normalize Actor Records
  3. [ADD SOURCE] (ソースの追加)をクリックして、ソースデータを選択できるパネルを開きます。ここでは、HDFSに保存されている俳優のリストです。
  4. データセットを選択し、[SELECT] (選択)をクリックしてパイプラインに追加します。
    必要であれば名前を変更します。
  5. をクリックして、パイプラインに[Normalize] (正規化)プロセッサーを追加します。[Configuration] (運用設定)パネルが開きます。
  6. プロセッサーに意味のある名前を付けます。

    例え

    俳優構造の正規化
  7. [Column to normalize] (正規化するカラム)フィールドにActorsと入力します。このカラムには正規化する階層レコードが含まれているからです。
  8. [Is list] (リスト)オプションと[Discard the trailing empty strings] (後続の空の文字列を破棄)オプションを有効にして、リスト内のデータを([array] (配列)構造から[record] (レコード)構造へ)平坦化し、空のデータを破棄します。
  9. [Save] (保存)をクリックして設定を保存します。
  10. パイプラインの[ADD DESTINATION] (デスティネーションの追加)アイテムをクリックしてパネルを開くと、正規化されたデータを保持する[Dataset] (データセット)を選択できます。
    必要であれば名前を変更します。
  11. (オプション) [Normalize] (正規化)プロセッサーのプレビューを確認し、正規化オペレーションの前後のデータを比較します。
  12. Talend Cloud Pipeline Designerの上部のツールバーで、リストから実行プロファイルを選択します(詳細は実行プロファイルを参照してください)。
  13. 実行アイコンをクリックしてパイプラインを実行します。

タスクの結果

パイプラインは実行中で、レコードは正規化され、出力は指定のターゲットシステムに送信されます。