Export de votre préparation vers le cluster - 7.3

Exemples d'utilisation de Talend Data Preparation

author
Talend Documentation Team
EnrichVersion
7.3
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
task
Qualité et préparation de données > Nettoyage de données
EnrichPlatform
Talend Data Preparation

Une fois vos données préparées, vous allez les réexporter dans votre cluster, en tant que fichier Parquet.

Notez que le cluster dans lequel vous allez exporter vos données nettoyées doit être le cluster depuis lequel vous avez importé les données en premier lieu.

Procédure

  1. Cliquez sur le bouton Export (Exporter) dans la barre en haut de l'application.
  2. Sélectionnez l'option All data (Toutes les données) pour que la préparation s'applique à toutes les données et pas seulement à l'échantillon sur lequel vous avez travaillé.
  3. Sélectionnez l'option HDFS file (Fichier HDFS) pour exporter vos données dans le cluster Hadoop.

    Notez que le cluster dans lequel vous allez exporter vos données nettoyées doit être le cluster depuis lequel vous avez importé les données en premier lieu.

  4. Sélectionnez le format Parquet.
  5. Dans le champ Output path (Chemin de sortie), saisissez l'URL complète vers votre emplacement favori dans le cluster, où sauvegarder le fichier exporté.

    Vous pouvez configurer manuellement Talend Data Preparation pour afficher une valeur par défaut dans le champ Output path (Chemin de sortie).

  6. Sélectionnez Specified Kerberos (Keytab personnalisé) comme méthode d'authentification.
  7. Spécifiez votre Principal et le chemin vers votre fichier keytab.

    Si vous sélectionnez Default Kerberos (Keytab par défaut), les valeurs du chemin d'accès au fichier keytab et du Principal seront celles saisies dans le fichier de configuration de Talend Data Preparation.

    Dans tous les cas, le chemin doit pointer vers un fichier keytab accessible à tous les workers du cluster.

    Sélectionnez la méthode d'authentification Simple si vous n'utilisez pas Kerberos.

  8. Cliquez sur Confirm (Confirmer).

    Votre export démarre en tâche de fond et est traité directement dans le cluster.

    Si une préparation contient des actions affectant une seule ligne ou des cellules, elles seront ignorées durant l'export. Un avertissement s'affiche avant l'export si votre préparation contient de telles actions.

  9. Cliquez sur le bouton Export history (Historique d'export) dans la barre en haut de l'application, afin de vérifier le statut de l'export.

    Parmi les informations disponibles, vous pouvez voir que l'export s'est bien terminé.

Résultats

Vos données ont été traitées et sauvegardées en tant que fichier parquet, sans jamais quitter le cluster.