Afin de créer le quatrième Job, permettant d'analyser le fichier chargé afin d'obtenir les occurrences de code dans les appels de services vers le site Web exécutés avec succès, procédez comme suit :
Procédure
-
Créez un nouveau Job et nommez-le D_Pig_Count_Codes afin d'identifier son rôle et son ordre d'exécution dans les Jobs d'exemple.
-
Déposez les composants suivants de la Palette dans l'espace de modélisation graphique :
-
un tPigLoad, afin de charger les données à analyser,
-
un tPigFilterRow, afin de supprimer du flux d'entrée les enregistrements ayant l'erreur "404",
-
un tPigFilterColumns, afin de sélectionner les colonnes que vous souhaitez inclure dans les résultats,
-
un tPigAggregate, afin de compter le nombre de visites sur le site web,
-
un tPigSort, afin de trier les résultats et
-
un tPigStoreResult, afin de sauvegarder le résultat dans HDFS.
-
Reliez ces composants à l'aide de liens afin de former une chaîne Pig et, afin de mieux identifier leur rôle, renommez-les.