Charger les données d'entrée et supprimer les doublons - 6.4

Pig

author
Talend Documentation Team
EnrichVersion
6.4
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
task
Création et développement > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Gouvernance de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
Qualité et préparation de données > Systèmes tiers > Composants Processing (Intégration) > Composants Pig
EnrichPlatform
Studio Talend

Procédure

  1. Double-cliquez sur le tPigload afin d'ouvrir sa vue Basic settings.
  2. Cliquez sur le bouton [...] à côté du champ Edit schema pour ouvrir la boîte de dialogue [Schema].
  3. Cliquez sur le bouton [+] pour ajouter trois colonnes, selon la structure du fichier d'entrée : Name (de type String), Country (String) et Age (Integer) puis cliquez OK pour sauvegarder la configuration et fermer la boîte de dialogue.
  4. Dans la zone Mode, sélectionnez Local.
  5. Dans le champ Input file URI, renseignez le chemin d'accès complet au fichier d'entrée.
  6. Sélectionnez PigStorage dans la liste Load function et laissez les autres paramètres tels qu'ils sont.
  7. Double-cliquez sur le tPigDistinct pour ouvrir sa vue Basic settings. Cliquez sur le bouton Sync columns pour vous assurer que la structure du schéma d'entrée a bien été propagée depuis le composant précédent.
    Ce composant supprime les doublons du flux d'entrée.