データのプレパレーションが完了したので、今回はParquetファイルとしてクラスターにエクスポートし戻すことができます。
クレンジング済みのデータをエクスポートするクラスターは、元々データをインポートしたクラスターと同じである必要があります。
手順
-
アプリケーションヘッダーバーで[Export] (エクスポート)ボタンをクリックします。
- 作業したサンプルだけでなく、データ全体が準備されるように、[All data] (すべてのデータ)ラジオボタンを選択します。
-
[HDFS file] (HDFSデータ)ラジオボタンを選択して、データをHadoopクラスターにエクスポートします。
クレンジング済みのデータをエクスポートするクラスターは、元々データをインポートしたクラスターと同じである必要があります。
- [Parquet]形式を選択します。
-
[Output path] (出力パス)フィールドに、エクスポートされたファイルを保存するクラスター上の任意の場所への完全なURLを入力します。
[Output path] (出力パス)フィールドにデフォルト値が表示されるようにTalend Data Preparationを手動で設定できます。
- 認証方法に[Specified Kerberos] (指定したKerberos)を選択します。
-
プリンシパルおよびkeytabファイルへのパスを入力します。
[Default Kerberos] (デフォルトのKerberos)を選択すると、keytabファイルのパスとプリンシパルの値がTalend Data Preparation設定ファイルに入力されます。
いずれにしてもパスは、クラスターの作業者全員がアクセスできるkeytabファイルを参照する必要があります。
Kerberosを使用しない場合は、[Simple] (単純)な認証を選択します。
-
[Confirm] (確認)をクリックします。
エクスポートがバックグラウンドで開始され、クラスター上で直接処理されます。
1つの行またはセルにしか影響しない処理がプレパレーションに含まれている場合、エクスポートプロセス中にこれらの処理はスキップされます。プレパレーションにそのような処理が含まれている場合、エクスポートの前に警告が表示されます。
-
アプリケーションのヘッダーバーの[Export history] (エクスポート履歴)ボタンをクリックして、エクスポートのステータスを確認します。
いくつかある情報の中でも、エクスポートが成功したことを確認できます。
タスクの結果
クラスターを離れることなくデータが処理されてparquetファイルとして保存されます。