Gestion des données compressées - 7.1

Guide utilisateur de Talend Big Data Studio

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Big Data
task
Création et développement
EnrichPlatform
Studio Talend

Hadoop supporte différents formats de compression de fichier, permettant ainsi de réduire l'espace requis pour stocker les fichiers et d'accélérer le transfert de données.

Dans un Job, vous pouvez directement traiter les fichiers compressés, à l'aide de composants de fichiers système, comme le tHDFSInput ou le tFileInputDelimited.

Dans cette section, les composants MapReduce sont utilisés pour afficher ou lire les fichiers compressés.

Procédure

  • Après avoir ouvert un Job MapReduce dans l'espace de modélisation graphique, vous devez utiliser le composant tHDFSInput afin de lire les fichiers compressés stockés dans un système HDFS donné. Dans la vue Component du tHDFSInput, vous devez saisir le nom et l'extension du fichier compressé à lire.

    Notez que dans la version standard du tHDFSInput, vous devez cocher la case Uncompress the data afin de sélectionner le format à partir duquel vous souhaitez décompresser les données.

  • Si vous souhaitez écrire des fichiers compressés dans le système HDFS, déposez le composant tHDFSOutput dans l'espace de modélisation graphique et cochez la case Compress the data afin de définir le format vers lequel vous souhaitez compresser les données.