始める前に
ソースデータを保管するシステムへの接続が作成済みであること。
ここでは、Amazon S3接続を使用します。
ソースデータを保管するデータセットが追加済みであること。
ここでは、 ID、名前、国、その他を含む俳優に関する階層データを使用します。
接続および処理済みデータを保管する関連データセットも作成済みであること。
ここでは、Amazon S3に保存されているファイルを使用します。
手順
-
[Pipelines] (パイプライン)ページで[ADD PIPELINE] (パイプラインの追加)をクリックします。新しいパイプラインが開きます。
- パイプラインに意味のある名前を付けます。
例え
Normalize Actor Records
- [ADD SOURCE] (ソースの追加)をクリックし、ソースデータを選択できるパネルを開きます。ここでは、HDFSに保存されている俳優のリストです。
-
データセットを選択し、[SELECT] (選択)をクリックしてパイプラインに追加します。
必要であれば名前を変更します。
をクリックし、パイプラインにNormalizeプロセッサーを追加します。[Configuration] (設定)パネルが開きます。
- プロセッサーに意味のある名前を付けます。
例え
俳優構造の正規化
- [Column to normalize] (正規化するカラム)フィールドにActorsと入力します。このカラムには正規化する階層レコードが含まれているからです。
- [Is list] (リスト)オプションと[Discard the trailing empty strings] (後続の空の文字列を破棄)オプションを有効にし、リスト内のデータを([array] (配列)構造から[record] (レコード)構造へ)平坦化して、空のデータを破棄します。
-
[Save] (保存)をクリックして設定を保存します。
- パイプラインの[ADD DESTINATION] (デスティネーションの追加)アイテムをクリックしてパネルを開くと、正規化されたデータを保持する[Dataset] (データセット)を選択できます。
必要であれば名前を変更します。
- (オプション) Normalizeプロセッサーのプレビューを確認し、正規化操作の前後のデータを比較します。
-
Talend Cloud Pipeline Designerの上部のツールバーで、リストから実行プロファイルを選択します(詳細は実行プロファイルを参照してください)。
-
実行アイコンをクリックしてパイプラインを実行します。
タスクの結果
パイプラインは実行中となり、レコードは正規化され、出力は指定のターゲットシステムに送信されます。