圧縮データの処理 - 7.0

ジョブの設計

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Data Fabric
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio

Hadoopはさまざまなファイルの圧縮形式をサポートしているので、ファイルの保管スペースを節約したり、データ転送をスピードアップしたりできます。ジョブで、tHDFSInputまたはtFileInputDelimitedなどのファイルシステム関連のコンポーネントを使用して、圧縮ファイルを直接取り扱うことができます。

警告:

このセクションで説明する情報は、サブスクリプションのTalend Studio Studioユーザーのみを対象としています。Talend Open Studio for Big Dataのユーザーには適用されません。

このセクションでは、 MapReduceコンポーネントを使用して、圧縮ファイルを読み書きする方法を説明しています。

ワークスペースにMapReduceジョブを開き、特定のHDFSシステムに保管されている圧縮ファイルをtHDFSInputを使って読み込みます。tHDFSInput[Component] (コンポーネント)ビューで、読み込む圧縮ファイルの名前と拡張子を入力します。

標準バージョンのtHDFSInputでは、[Uncompress the data] (データの解凍)チェックボックスをオンにしてデータを解凍する形式を選択する必要があります。

HDFSシステムに圧縮ファイルを書き込むには、ワークスペースにtHDFSOutputコンポーネントを配置し、[Compress the data] (データの圧縮)チェックボックスをオンにして圧縮データの形式を定義します。