始める前に
ソースデータを保管するシステムへの接続が作成済みであること。
ここではテスト接続を使用します。
ソースデータを保管するデータセットが追加済みであること。
ここでは乗車時刻、降車時刻、運賃などの階層タクシーデータを表示します(このページの左側のパネルにある[Downloads] (ダウンロード)タブからtype_converter-datacleansing-taxi.jsonファイルをダウンロードします)。
接続および処理済みデータを保管する関連データセットも作成済みであること。
ここではテストデータセットを使用します。
手順
-
[Pipelines] (パイプライン)ページで[ADD PIPELINE] (パイプラインの追加)をクリックします。新しいパイプラインが開きます。
-
パイプラインに意味のある名前を付けます。
例え
Fill empty cells with appropriate value
-
[ADD SOURCE] (ソースの追加)をクリックしてパネルを開くと、ソースデータを選択できます。ここでは、レコードが空のカラム(.store_and_fwd_flag)が含まれているタクシー関連のデータを使用します。
例え
-
データセットを選択し、[SELECT] (選択)をクリックしてパイプラインに追加します。
必要であれば名前を変更します。
-
をクリックして、[Data cleansing] (データクレンジング)プロセッサーをパイプラインに追加します。設定パネルが開きます。
-
プロセッサーに意味のある名前を付けます。
例え
fill empty cells with N/A value
-
[CONFIGURATION] (運用設定)エリアで以下のようにします:
-
購入価格に税額を追加する場合は、[Function name] (機能名)リストで[Fill cells with value] (セルに値を入力)を選択します。
-
レコードが空のフィールドに該当する場合は、[Fields to process] (処理するフィールド)リストで.store_and_fwd_flagを選択します。
-
空のレコードをすべてN/A値に置換する場合は、[Use with] (次を使用)リストで[Value] (値)を選択し、その[Value] (値)フィールドにN/Aと入力します。
-
[Save] (保存)をクリックして設定を保存します。
プロセッサーのプレビューに注目し、クレンジング前のデータとクレンジング後のデータを比較します。
-
[ADD DESTINATION] (デスティネーションの追加)アイテムをクリックし、クレンジング済みデータを保存するデータセットを選択します。
必要であれば名前を変更します。
-
Talend Cloud Pipeline Designerの上部のツールバーで、リストから実行プロファイルを選択します(詳細は実行プロファイルを参照してください)。
-
実行アイコンをクリックしてパイプラインを実行します。
タスクの結果
パイプラインは実行中となり、空のレコードは指定した固定値で置換され、出力フローは指定のターゲットシステムに送信されます。