Rassembler des informations concernant le trafic Web à l'aide d'Hadoop - 7.2

Exemples de Jobs Big Data

Version
7.2
Language
Français (France)
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
Module
Studio Talend
Content
Création et développement > Création de Jobs
Création et développement > Création de Jobs > Distributions Hadoop
Création et développement > Création de Jobs > Frameworks de Jobs > Standard
Pour conduire une campagne marketing concernant les habitudes et les profils de vos clients et clientes·es ou utilisateurs·rices, vous devez pouvoir récupérer des données selon leurs habitudes ou leur comportement sur votre site Web afin de créer des profils utilisateur·rice et de leur envoyer les publicités adéquates, par exemple.

Le dossier ApacheWebLog du projet démo Big Data inclus dans le Studio Talend fournit un exemple permettant de retrouver les utilisateurs et utilisatrices ayant le plus souvent visité un site Web, en triant les adresses IP à partir d'un grand nombre d'enregistrements dans le fichier de registre d'accès pour un serveur Apache HTTP, afin de faire d'autres analyses sur le comportement des utilisateurs et des utilisatrices sur le site Web. Cette section décrit les procédures pour créer et configurer des Jobs implémentant cet exemple. Pour plus d'informations concernant le projet démo Big Data, consultez le Guide de prise en main de votre Studio.

Avant de découvrir cet exemple et de créer les Jobs, vous devez :
  • Avoir importé le projet démo et obtenu le fichier de registre d'accès utilisé dans cet exemple en exécutant le Job GenerateWebLogFile inclus dans le projet démo.

  • Avoir installé et démarré l'appliance virtuelle Hortonworks Sandbox pour laquelle le projet démo est fait pour fonctionner tel que décrit dans le Guide de prise en main de votre Studio.

  • Avoir ajouté une IP vers l'entrée de mapping du nom d'hôte dans le fichier hosts afin de résoudre le nom d'hôte sandbox.

Dans cet exemple, certains composants Big Data Talend sont utilisés pour tirer parti de la plateforme Open source Hadoop, dans le domaine de la gestion des Big Data. Dans ce scénario, vous utilisez six Jobs :
  • le premier Job configure une base de données et une table HCatalog comprenant une partition, dans HDFS

  • le deuxième Job charge le registre d'accès à analyser dans le système de fichiers HDFS.

  • le troisième Job se connecte à la base de données HCatalog et affiche le contenu du fichier chargé dans la console.

  • le quatrième Job analyse le fichier chargé. Il supprime notamment tout enregistrement contenant une erreur "404", compte les occurrences de code dans les appels de services vers le site Web exécutés avec succès, trie les données de résultats et les sauvegarde dans le système de fichiers HDFS.

  • le cinquième Job analyse le fichier chargé. Il supprime notamment tout enregistrement contenant une erreur "404", compte les occurrences d'adresses IP dans les appels de services vers le site Web exécutés avec succès, trie les données de résultats et les sauvegarde dans le système de fichiers HDFS.

  • le dernier Job lit les résultats depuis HDFS et affiche les adresses IP ainsi que les appels de services réussis et le nombre de visites du site Web dans la console standard du système.