Export d'une préparation effectuée sur un jeu de données HDFS - 2.1

Guide utilisateur de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
6.4
2.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Lorsque vous avez terminé de préparer votre jeu de données extrait de HDFS, vous pouvez l'exporter à nouveau dans le cluster, ou le télécharger en tant que fichier local.

Notez que le cluster dans lequel vous allez exporter vos données nettoyées doit être le cluster depuis lequel vous avez importé les données en premier lieu.

Procédure

  1. Cliquez sur le bouton Export dans la barre en haut de l'application.
  2. Si le résultat de votre préparation est plus volumineux que la taille de votre échantillon actuel, 10 000 lignes par exemple, sélectionnez une option d'export :
    • si vous sélectionnez Current sample, seul l'échantillon sur lequel vous avez travaillé sera exporté, en tant que fichier local csv, xlsx ou tableau.
    • si vous sélectionnez All data, toutes les étapes de préparation effectuées sur votre échantillon seront appliquées au reste du jeu de données et l'export HDFS sera activé.
  3. Sélectionnez HDFS file.
  4. Dans le champ Format, sélectionnez le format de sortie de vos données.

    Pour des fichiers HDFS, Talend Data Preparation supporte les formats CSV, AVRO et PARQUET.

    Si vous sélectionnez CSV, sélectionnez le délimiteur à utiliser pour le fichier de sortie.

  5. Dans le champ Path, saisissez l'URL complète pointant vers votre emplacement favori du cluster où sauvegarder le fichier exporté.
  6. Si vous choisissez l'authentification via Kerberos, saisissez votre Principal et le chemin vers votre fichier keytab.

    Le chemin doit pointer vers un fichier keytab accessible par tous les workers du cluster.

  7. Cliquez sur Confirm.

    Si une préparation contient des actions affectant une seule ligne, ou des cellules, elles seront ignorées durant l'export. Les fonctions Make as header ou Delete Row, par exemple, ne fonctionnent pas dans un contexte Big Data. Un avertissement s'affiche avant l'export, si votre préparation contient de telles actions.

Résultats

Si vous choisissez d'exporter votre échantillon en tant que fichier local, le téléchargement du fichier de sortie commence directement.

Dans le cas d'un export complet, vers le cluster ou un fichier local, l'opération d'export commence en tâche de fond. Vous pouvez vérifier le statut de l'export et télécharger votre fichier de sortie dans la page Export history. Pour plus d'informations, consultez Page d'historique des exports.

L'opération complète est traitée directement sur le cluster Hadoop.

L'export déclenche une rafraîchissement dans les données récupérées du cluster, garantissant ainsi que les données affichées en sortie sont toujours à jour.

Cepedant, à cause de ce rafraîchissement, il est possible qu'un jeu de données initialement inférieur à 10 000 lignes, excède désormais cette limite. Dans ce cas :

  • Si vous exportez vers un fichier local, seul l'échantillon est conservé.
  • Si vous exportez vers un cluster Hadoop, toutes les données sont exportées.