Le dossier ApacheWebLog du projet démo Big Data inclus dans le Studio Talend fournit un exemple permettant de retrouver les utilisateurs ayant le plus souvent visité un site Web, en triant les adresses IP à partir d'un grand nombre d'enregistrements dans le fichier de registre d'accès pour un serveur Apache HTTP, afin de faire d'autres analyses sur le comportement des utilisateurs sur le site Web. Cette section décrit les procédures pour créer et configurer des Jobs implémentant cet exemple. Pour plus d'informations concernant le projet démo Big Data, consultez le Guide de prise en main de votre Studio.
-
Avoir importé le projet démo et obtenu le fichier de registre d'accès utilisé dans cet exemple en exécutant le Job GenerateWebLogFile inclus dans le projet démo.
-
Avoir installé et démarré l'appliance virtuelle Hortonworks Sandbox pour laquelle le projet démo est fait pour fonctionner tel que décrit dans le Guide de prise en main de votre Studio.
-
Avoir ajouté une IP vers l'entrée de mapping du nom d'hôte dans le fichier hosts afin de résoudre le nom d'hôte sandbox.
-
le premier Job configure une base de données et une table HCatalog comprenant une partition, dans HDFS
-
le deuxième Job charge le registre d'accès à analyser dans le système de fichiers HDFS.
-
le troisième Job se connecte à la base de données HCatalog et affiche le contenu du fichier chargé dans la console.
-
le quatrième Job analyse le fichier chargé. Il supprime notamment tout enregistrement contenant une erreur "404", compte les occurrences de code dans les appels de services vers le site Web exécutés avec succès, trie les données de résultats et les sauvegarde dans le système de fichiers HDFS.
-
le cinquième Job analyse le fichier chargé. Il supprime notamment tout enregistrement contenant une erreur "404", compte les occurrences d'adresses IP dans les appels de services vers le site Web exécutés avec succès, trie les données de résultats et les sauvegarde dans le système de fichiers HDFS.
-
le dernier Job lit les résultats depuis HDFS et affiche les adresses IP ainsi que les appels de services réussis et le nombre de visites du site Web dans la console standard du système.