圧縮データの処理 - Cloud

Talend Cloud Real-Time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
Cloud
EnrichProdName
Talend Cloud
task
ジョブデザインと開発
EnrichPlatform
Talend Management Console
Talend Studio

Hadoopはさまざまなファイルの圧縮形式をサポートしているので、ファイルの保管スペースを節約したり、データ転送をスピードアップしたりできます。

ジョブで、tHDFSInputまたはtFileInputDelimitedなどのファイルシステム関連のコンポーネントを使用して、圧縮ファイルを直接取り扱うことができます。

このセクションでは、MapReduceコンポーネントを使用して、圧縮ファイルを読み書きする方法を説明しています。

手順

  • ワークスペースにMapReduceジョブを開き、特定のHDFSシステムに保管されている圧縮ファイルをtHDFSInputを使って読み込みます。tHDFSInput[Component] (コンポーネント)ビューで、読み込む圧縮ファイルの名前と拡張子を入力します。

    標準バージョンのtHDFSInputでは、[Uncompress the data] (データの解凍)チェックボックスをオンにしてデータを解凍する形式を選択する必要があります。

  • HDFSシステムに圧縮ファイルを書き込むには、ワークスペースにtHDFSOutputコンポーネントを配置し、[Compress the data] (データの圧縮)チェックボックスをオンにして圧縮データの形式を定義します。