クラスターへのプレパレーションのエクスポート - 2.5

Talend Data Preparation の簡単な例

author
Talend Documentation Team
EnrichVersion
7.0
2.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

データのプレパレーションが完了したので、今回はParquetファイルとしてクラスターにエクスポートし戻すことができます。

クレンジング済みのデータをエクスポートするクラスターは、元々データをインポートしたクラスターと同じである必要があります。

手順

  1. アプリケーションヘッダーバーで[Export] (エクスポート)ボタンをクリックします。
  2. 作業したサンプルだけでなく、データ全体が準備されるように、[All data] (すべてのデータ)ラジオボタンを選択します。
  3. [HDFS file] (HDFSデータ)ラジオボタンを選択して、データをHadoopクラスターにエクスポートします。

    クレンジング済みのデータをエクスポートするクラスターは、元々データをインポートしたクラスターと同じである必要があります。

  4. [Parquet]形式を選択します。
  5. [Output path] (出力パス)フィールドに、エクスポートされたファイルを保存するクラスター上の任意の場所への完全なURLを入力します。

    [Output path] (出力パス)フィールドにデフォルト値が表示されるようにTalend Data Preparationを手動で設定することができます。

  6. 認証方法に[Specified Kerberos] (指定したKerberos)を選択します。
  7. プリンシパルおよびkeytabファイルへのパスを入力します。

    [Default Kerberos] (デフォルトのKerberos)を選択すると、keytabファイルのパスとプリンシパルの値がTalend Data Preparation設定ファイルに入力されます。

    いずれにしてもパスは、クラスターの作業者全員がアクセスできるkeytabファイルを参照する必要があります。

    Kerberosを使用しない場合は、[Simple] (単純)な認証を選択します。

  8. [Confirm] (確認)をクリックします。

    エクスポートがバックグラウンドで開始され、クラスター上で直接処理されます。

    1つの行またはセルにしか影響しない処理がプレパレーションに含まれている場合、エクスポートプロセス中にこれらの処理はスキップされます。プレパレーションにそのような処理が含まれている場合、エクスポートの前に警告が表示されます。

  9. アプリケーションのヘッダーバーの[Export history] (エクスポート履歴)ボタンをクリックして、エクスポートのステータスを確認します。

    いくつかある情報の中でも、エクスポートが成功したことを確認できます。

タスクの結果

クラスターを離れることなくデータが処理されてparquetファイルとして保存されます。