HDFSデータセットで作成したプレパレーションのエクスポート - 2.5

Talend Data Preparation ユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
2.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
データクオリティとプレパレーション > データクレンジング
EnrichPlatform
Talend Data Preparation

HDFSから抽出したデータセットのプレパレーションが終了したら、データセットを直接クラスターにエクポートし戻すことも、ローカルファイルとしてダウンロードすることもできます。

クレンジング済みのデータをエクスポートするクラスターは、元々データをインポートしたクラスターと同じである必要があります。

手順

  1. アプリケーションヘッダーバーで[Export] (エクスポート)ボタンをクリックします。
  2. 完成したプレパレーションが現在のサンプルサイズ(デフォルトは10,000行)よりも大きい場合は、エクスポートオプションを選択する必要があります。
    • [Current sample] (現在のサンプル)を選択すると、作業していたサンプルのみがローカルcsvxlsx、またはtableauとしてエクスポートされます。
    • [All data] (すべてのデータ)を選択すると、サンプルに対して実行したすべてのプレパレーションステップがデータセットの残りの部分にも適用され、HDFSエクスポートが有効になります。
  3. [HDFS]を選択します。
  4. [Format] (形式)フィールドで、データの出力形式を選択します。

    HDFSファイルの場合、Talend Data PreparationではCSVAVROPARQUETがサポートされます。

    CSVを選択する場合は、出力ファイルに使用する区切り記号を選択します。

  5. [Path] (パス)フィールドに、エクスポートされたファイルを保存するクラスター上の任意の場所への完全なURLを入力します。
  6. Kerberosで認証する場合は、プリンシパルとkeytabファイルへのパスを入力します。

    パスは、クラスターの作業者全員がアクセスできるkeytabファイルを参照する必要があります。

  7. [Confirm] (確認)をクリックします。

    1つの行またはセルにしか影響しない処理がプレパレーションに含まれている場合、エクスポートプロセス中にこれらの処理はスキップされます。[Make as header] (ヘッダーとしてマーク)または[Delete Row] (行の削除)ファンクションは、ビッグデータなどのコンテキストでは機能しません。プレパレーションにそのような処理が含まれている場合、エクスポートの前に警告が表示されます。

タスクの結果

サンプルをローカルファイルとしてエクスポートする場合は、出力ファイルのダウンロードが直接開始されます。

完全エクスポートの場合、ローカルファイルとしてエクスポートするかクラスターにエクスポートするかに関係なく、エクスポートプロセスがバックグラウンドで開始されます。[Export history] (エクスポート履歴)ページを使用して、エクスポートのステータスの確認や、出力ファイルのダウンロードを実行できます。詳細は、エクスポート履歴ページを参照してください。

操作全体がHadoopクラスターで直接処理されます。

エクスポートプロセスにより、クラスターからフェッチしたデータの更新がトリガーされ、出力内に表示されているデータを確実に常に最新の状態に保つことができます。