Export d'une préparation effectuée sur un jeu de données HDFS - 7.2

Guide d'utilisation de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
7.2
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Lorsque vous avez terminé de préparer votre jeu de données extrait de HDFS, vous pouvez l'exporter à nouveau dans le cluster, ou le télécharger en tant que fichier local.

Notez que le cluster dans lequel vous allez exporter vos données nettoyées doit être le même que celui duquel vous avez d'abord importé les données.

Procédure

  1. Cliquez sur le bouton Export dans la barre en haut de l'application.
  2. Si le résultat de votre préparation est plus volumineux que la taille de votre échantillon actuel, 10 000 lignes par défaut, sélectionnez une option d'export :
    • Si vous sélectionnez Current sample, seul l'échantillon sur lequel vous avez travaillé sera exporté, en tant que fichier local avec séparateur, xlsx ou tableau.
    • si vous sélectionnez All data, toutes les étapes de préparation effectuées sur votre échantillon seront appliquées au reste du jeu de données et l'export HDFS sera activé.
  3. Sélectionnez HDFS.
  4. Dans le champ Format, sélectionnez le format de sortie de vos données.

    Pour les fichiers HDFS, Talend Data Preparation supporte les fichiers avec séparateur, ainsi que les formats AVRO et PARQUET.

    Si vous sélectionnez un fichier avec séparateur, sélectionnez le séparateur à utiliser pour le fichier de sortie.

  5. Dans le champ Output path, saisissez l'URL complète vers votre emplacement favori dans le cluster, où sauvegarder le fichier exporté.
  6. Si vous choisissez de vous authentifier via un fichier keytab spécifique, saisissez votre Principal et le chemin vers votre fichier keytab.

    Le chemin doit pointer vers un fichier keytab accessible par tous les workers du cluster.

  7. Cliquez sur Confirm.

    Notez que si une préparation contient des actions affectant une seule ligne, ou des cellules, elles seront ignorées durant l'export. Les fonctions Make as header (Faire de la ligne un en-tête) ou Delete Row (Supprimer la ligne), par exemple, ne fonctionnent pas dans un contexte Big Data. Un avertissement sera affiché avant l'export si votre préparation contient de telles actions.

Résultats

Si vous choisissez d'exporter votre échantillon en tant que fichier local, le téléchargement du fichier de sortie commence directement.

Dans le cas d'un export complet, vers le cluster ou un fichier local, l'opération d'export commence en tâche de fond. Vous pouvez vérifier le statut de l'export et télécharger votre fichier de sortie via la page Export history (Historique d'exports). Pour plus d'informations, consultez Page d'historique des exports.

L'opération complète est traitée directement sur le cluster Hadoop.

L'export déclenche une rafraîchissement dans les données récupérées du cluster, garantissant ainsi que les données affichées en sortie sont toujours à jour.