圧縮データの処理 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

Hadoopはさまざまなファイルの圧縮形式をサポートしているので、ファイルの保管スペースを節約したり、データ転送をスピードアップしたりできます。ジョブで、tHDFSInputまたはtFileInputDelimitedなどのファイルシステム関連のコンポーネントを使用して、圧縮ファイルを直接取り扱うことができます。

警告:

このセクションで説明する情報は、サブスクリプションのTalend Studio Studioユーザーのみを対象としています。Talend Open Studio for Big Dataのユーザーには適用されません。

このセクションでは、 MapReduceコンポーネントを使用して、圧縮ファイルを読み書きする方法を説明しています。

ワークスペースにMapReduceジョブを開き、特定のHDFSシステムに保管されている圧縮ファイルをtHDFSInputを使って読み込みます。tHDFSInput[Component] (コンポーネント)ビューで、読み込む圧縮ファイルの名前と拡張子を入力します。

標準バージョンのtHDFSInputでは、[Uncompress the data] (データの解凍)チェックボックスをオンにしてデータを解凍する形式を選択する必要があります。

HDFSシステムに圧縮ファイルを書き込むには、ワークスペースにtHDFSOutputコンポーネントを配置し、[Compress the data] (データの圧縮)チェックボックスをオンにして圧縮データの形式を定義します。