始める前に
ソースデータを保管するシステムへの接続が作成済みであること。
ここでは、Amazon S3接続を使用します。
ソースデータを保管するデータセットが追加済みであること。
ここでは、マリにおける収穫作物に関するデータ(作物タイプ、生産額、収穫エリアなど)が含まれているデータセットを使用します。このページの左側パネルにある[Downloads] (ダウンロード)タブからstring-crops.csvファイルをダウンロードします。
接続および処理済みデータを保管する関連データセットも作成済みであること。
ここでは、同じS3バケットに保存されているデータセットを使用します。
手順
-
[Pipelines] (パイプライン)ページで[ADD PIPELINE] (パイプラインの追加)をクリックします。新しいパイプラインが開きます。
-
パイプラインに意味のある名前を付けます。
例え
Hash fields to compare data safely
-
[ADD SOURCE] (ソースの追加)をクリックし、ソースデータを選択できるパネルを開きます。ここでは、2005年のマリにおける収穫作物に関するデータを使用します。
例え
-
データセットを選択し、[SELECT] (選択)をクリックしてパイプラインに追加します。
必要であれば名前を変更します。
-
をクリックし、Data hashingプロセッサーをパイプラインに追加します。設定パネルが開きます。
-
プロセッサーに意味のある名前を付けます。
例え
hash fields
-
[Configuration] (設定)エリアで以下の操作を行います。
-
[Function name] (機能名)リストで、[Hash data] (データのハッシュ)を選択します。
-
すべての値を一度にハッシュする場合は、[Fields to process] (処理するフィールド)リストの横にある
アイコンをクリックします。
-
[Save] (保存)をクリックして設定を保存します。
プロセッサーのプレビューに注目し、操作前のデータと結合後のデータを比較します。
これですべてのフィールドがハッシュおよびセキュア化されます。cropフィールドとidフィールドの出力値が同じになっていますが、これは元の値が両方のフィールドで同じであることを表します。
-
をクリックし、パイプラインにField selectorプロセッサーを追加します。設定パネルが開きます。
-
プロセッサーに意味のある名前を付けます。
例え
merge identical hashed values
-
[Selectors] (セレクター)エリアで次の操作を行います。
-
.cropフィールドと.idフィールドが同一で、この両フィールドをマージする場合は、[Input] (入力)リストで.cropを選択し、[Output] (出力)リストにcrop_idと入力します。
-
このフィールドを維持して名前を変更する場合は、[NEW ELEMENT] (新規エレメント)を追加し、[Input] (入力)リストで.crop_parentを選択して、[Output] (出力)リストにcrop_typeと入力します。
-
出力でこのフィールドを維持する場合は、[NEW ELEMENT] (新規エレメント)を追加し、[Input] (入力)リストで.harvested_areaを選択して、[Output] (出力)リストにharvested_areaと入力します。
-
このフィールドを維持して名前を変更する場合は、[NEW ELEMENT] (新規エレメント)を追加し、[Input] (入力)リストで.value_of_productionを選択して、[Output] (出力)リストにproduction_valueと入力します。
-
[Save] (保存)をクリックして設定を保存します。
プロセッサーのプレビューに注目し、操作前のデータと結合後のデータを比較します。
-
[ADD DESTINATION] (デスティネーションの追加)アイテムをクリックし、処理済みデータを保存するデータセットを選択します。
必要であれば名前を変更します。
-
Talend Cloud Pipeline Designerの上部のツールバーで、リストから実行プロファイルを選択します(詳細は実行プロファイルを参照してください)。
-
実行アイコンをクリックしてパイプラインを実行します。
タスクの結果
パイプラインは実行中となり、データはハッシュされ、同一のフィールドは記述した条件に基づいてマージおよび再編成され、出力は指定したターゲットシステムに送信されます。