Analyser le fichier chargé et sauvegarder le résultat - 7.1

Exemples de Jobs Big Data

EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement > Création de Jobs
Création et développement > Création de Jobs > Distributions Hadoop
Création et développement > Création de Jobs > Frameworks de Jobs > Standard

Procédure

  1. Dans la vue Basic settings du composant tPigFilterRow, cliquez sur le bouton [+] pour ajouter une ligne à la table Filter configuration et configurez les paramètres de filtre, afin de supprimer les enregistrements contenant le code 404 et de passer les autres enregistrements dans le flux de sortie :
    1. Dans le champ Logical, sélectionnez AND.
    2. Dans le champ Column, sélectionnez la colonne code du schéma.
    3. Cochez la case NOT.
    4. Dans le champ Operator, sélectionnez equal.
    5. Dans le champ Value, saisissez 404.
  2. Dans la vue Basic settings du tPigFilterColumns, cliquez sur le bouton [...] pour ouvrir la boîte de dialogue [Schema]. Sélectionnez la colonne code du panneau Input et cliquez sur la flèche simple pour copier la colonne dans le panneau Output. Cela permet de passer les informations de la colonne code dans le flux de sortie. Cliquez sur OK afin de confirmer les paramètres du schéma de sortie et fermer la boîte de dialogue.
  3. Dans la vue Basic settings du composant tPigAggregate, cliquez sur le bouton Sync columns afin de récupérer le schéma du composant précédent et propagez-le au composant suivant.
  4. Cliquez sur le bouton [...] à côté du champ Edit schema afin d'ouvrir la boîte de dialogue [Schema] et ajoutez une colonne : count.

    Cette colonne stocke le nombre d'occurrences de chaque code des appels de services exécutés avec succès.

  5. Configurez les paramètres suivants afin de compter le nombre d'occurrences de chaque code :
    1. Dans la zone Group by, cliquez sur le bouton [+] pour ajouter une ligne à la table et sélectionnez la colonne count dans le champ Column.
    2. Dans la zone Operations, cliquez sur le bouton [+] pour ajouter une ligne à la table et sélectionnez la colonne count dans le champ Additional Output Column, sélectionnez count dans la fonction Function et sélectionnez la colonne code dans le champ Input Column.
  6. Dans la vue Basic settings du composant tPigSort, configurez les paramètres de tri, afin de trier les données à passer :
    1. Cliquez sur le bouton [+] pour ajouter une ligne à la table Sort key.
    2. Dans le champ Column, sélectionnez count pour définir la colonne count comme clé.
    3. Dans le champ Order, sélectionnez DESC pour trier les données en ordre décroissant.
  7. Dans la vue Basic settings du tPigStoreResult, configurez les propriétés du composant afin de charger les données de résultats à l'emplacement spécifié dans le système Hadoop :
    1. Cliquez sur le bouton Sync columns pour récupérer le schéma du composant précédent.
    2. Dans le champ Result file URI, saisissez le chemin d'accès au fichier de résultats, /user/hdp/weblog/apache_code_cnt dans cet exemple.
    3. Dans la liste Store function, sélectionnez PigStorage.
    4. Si nécessaire, cochez la case Remove result directory if exists.
  8. Sauvegardez le schéma de ce composant en tant que schéma générique dans le Repository afin de pouvoir le réutiliser facilement dans le dernier Job, comme dans Centraliser le schéma du registre d'accès afin de le réutiliser dans la configuration des Jobs. Nommez ce schéma générique code_count.
  9. Dans cette étape, vous allez configurer le cinquième Job, E_Pig_Count_IPs, permettant d'analyser le fichier chargé à l'aide d'une chaîne Pig similaire à celle utilisée dans le Job précédent. Il permet également d'obtenir le nombre d'occurrences d'adresses IP dans les appels de services vers le site Web exécutés avec succès. Vous pouvez utiliser les paramètres du Job précédent avec les différences suivantes :
    1. Dans la boîte de dialogue [Schema] du tPigFilterColumns, copiez la colonne host, au lieu de la colonne code, du panneau Input vers le panneau Output.
    2. Dans le tPigAggregate, sélectionnez la colonne host dans le champ Column de la table Group by et dans le champ Input Column de la table Operations.
    3. Dans le tPigStoreResult, saisissez /user/hdp/weblog/apache_ip_cnt dans le champ Result file URI.
    4. À partir du schéma du tPigStoreResult, sauvegardez un schéma générique nommé ip_count dans le Repository afin de le réutiliser facilement dans le dernier Job.
    5. Une fois les paramètres des composants définis, appuyez sur Ctrl+S pour sauvegarder la configuration du Job.