Transformer le scénario en Jobs - 6.4

Talend Open Studio for Big Data Guide utilisateur

EnrichVersion
6.4
EnrichProdName
Talend Open Studio for Big Data
task
Création et développement
EnrichPlatform
Studio Talend

Cette section décrit comment configurer les métadonnées de connexion utilisées dans les Jobs d'exemple et comment créer, configurer et exécuter les Jobs afin d'obtenir le résultat attendu pour ce scénario.

Configurer les métadonnées de connexion utilisées dans les Jobs

Dans ce scénario, une connexion HDFS et une connexion HCatalog sont utilisées plusieurs fois dans différents Jobs. Afin de simplifier la configuration des composants, il est possible de centraliser ces connexions sous le nœud Hadoop Cluster du Repository. Cela permet de réutiliser facilement ces connexions.

Configurer une connexion au cluster Hadoop

  1. Cliquez-droit sur Hadoop cluster sous le nœud Metadata du Repository puis sélectionnez Create Hadoop depuis le menu contextuel afin d'ouvrir l'assistant de configuration de la connexion. Donnez un nom à la connexion, Hadoop_Sandbox dans cet exemple. Enfin, cliquez sur Next.

  2. Configurez la connexion au cluster Hadoop :

    • Sélectionnez la distribution Hadoop et sa version.

    • Spécifiez l'URI du NameNode et le Resource Manager. Dans cet exemple, le nom d'hôte sandbox est utilisé pour le NameNode et le Resource Manager. Le nom d'hôte doit avoir été mappé vers l'adresse IP assignée à la machine virtuelle Sandbox. Les ports par défaut sont utilisés, 8020 pour le NameNode et 50300 por le Resource Manager.

    • Spécifiez le nom d'utilisateur pour l'authentification Hadoop, sandbox dans cet exemple.

  3. Cliquez sur Finish. La connexion au cluster Hadoop apparaît sous le nœud Hadoop Cluster du Repository.

Configurer une connexion HDFS

  1. Cliquez-droit sur la connexion au cluster Hadoop que vous venez de créer et, dans le menu contextuel, cliquez sur Create HDFS afin d'ouvrir l'assistant de configuration de connexion. Donnez un nom à la connexion HDFS, HDFS_Sandbox dans cet exemple, puis cliquez sur Next.

  2. Si besoin, personnalisez les paramètres de la connexion HDFS et vérifiez la connexion. Comme les Jobs d'exemple fonctionnent avec les paramètres par défaut, cliquez simplement sur Check afin de vérifier la connexion.

  3. Cliquez sur Finish. La connexion HDFS apparaît sous votre connexion au cluster Hadoop.

Configurer une connexion HCatalog

  1. Cliquez-droit sur la connexion au cluster Hadoop que vous venez de créer et, dans le menu contextuel, cliquez sur Create HCatalog afin d'ouvrir l'assistant de configuration de connexion. Donnez un nom à la connexion HCatalog, HCatalog_Sandbox dans cet exemple, puis cliquez sur Next.

  2. Dans le champ Database, saisissez le nom de la base de données utilisée, talend dans cet exemple. Cliquez sur Check afin de vérifier la connexion.

  3. Cliquez sur Finish. La connexion HCatalog apparaît sous votre connexion au cluster Hadoop.

Ces éléments de métadonnées centralisés peuvent désormais être utilisés afin de configurer les détails de connexion de différents composants et dans différents Jobs. Notez que ces connexions n'ont pas de schémas de table définis. Ces schémas sont créés séparément lors de la configuration des Jobs d'exemple.

Pour plus d'informations concernant la centralisation des métadonnées spécifiques à Big Data dans le Repository, consultez Gestion des métadonnées pour Talend Big Data. Pour plus d'informations concernant la centralisation d'autres types de métadonnées, consultez Gestion des métadonnées dans l'intégration de données.

Créer les Jobs d'exemple

Dans cette section, vous créez six Jobs permettant d'implémenter l'exemple ApacheWebLog du Job de démo.

Créer le premier Job

Afin de créer le premier Job, permettant de configurer une base de données HCatalog afin de gérer le registre d'accès à analyser, procédez comme suit :

  1. Dans le Repository, cliquez-droit sur Job Designs. Cliquez ensuite sur Create folder afin de créer un nouveau dossier pour grouper les Jobs créés.

    Cliquez-droit sur le dossier que vous venez de créer et cliquez sur Create job afin de créer votre premier Job. Nommez-le A_HCatalog_Create afin d'identifier son rôle et son ordre d'exécution parmi les Jobs d'exemple. Vous pouvez également fournir une courte description pour votre Job. Cette description apparaît en tant qu'info-bulle lorsque vous placez le pointeur de votre souris sur le Job.

  2. Déposez un composant tHDFSDelete et deux composants tHCatalogOperation de la Palette dans l'espace de modélisation graphique.

  3. Reliez les trois composants à l'aide de liens Trigger > OnSubjobOk. Le sous-job HDFS est utilisé pour supprimer, s'il y en a, tous les résultats précédents de cet exemple afin d'éviter toute erreur lors de l'exécution du Job. Les deux sous-jobs HCatalog créent une base de données HCatalog ainsi qu'une table HCatalog et une partition dans la table HCatalog créée, respectivement.

  4. Renommez les composants afin de mieux identifier leur rôle au sein du Job.

Créer le deuxième Job

Afin de créer le deuxième Job, permettant de charger le registre d'accès dans HCatalog, procédez comme suit :

  1. Créez le nouveau Job et nommez-le B_HCatalog_Load afin d'identifier son rôle et son ordre d'exécution parmi les autres Jobs d'exemple.

  2. Déposez un tApacheLogInput, un tFilterRow, un tHCatalogOutput et un tLogRow de la Palette dans l'espace de modélisation graphique.

  3. Reliez le tApacheLogInput au tFliterRow à l'aide d'un lien Row > Main. Reliez ensuite le tFilterRow au tHCatalogOutput à l'aide d'un lien Row > Filter. Ce flux de données charge le fichier de log à analyser dans la base de données HCatalog tout en supprimant tous les enregistrements ayant le code d'erreur "301".

  4. Reliez le tFilterRow au tLogRow à l'aide d'un lien Row > Reject. Ce flux affiche les enregistrements ayant le code d'erreur "301" dans la console.

  5. Afin de mieux identifier le rôle de chaque composant, renommez-les comme suit :

Créer le troisième Job

Afin de créer le troisième Job, permettant d'afficher le contenu du fichier chargé, procédez comme suit :

  1. Créez un nouveau Job et nommez-le C_HCatalog_Read afin d'identifier son rôle et son ordre d'exécution parmi les autres Jobs.

  2. Déposez un tHCatalogInput et un tLogRow de la Palette dans l'espace de modélisation graphique. Reliez-les à l'aide d'un lien Row > Main.

  3. Afin de mieux identifier le rôle de chaque composant, renommez-les comme suit :

Créer le quatrième Job

Afin de créer le quatrième Job, permettant d'analyser le fichier chargé afin d'obtenir les occurrences de code dans les appels de services vers le site Web exécutés avec succès, procédez comme suit :

  1. Créez un nouveau Job et nommez-le D_Pig_Count_Codes afin d'identifier son rôle et son ordre d'exécution dans les Jobs d'exemple.

  2. Déposez les composants suivants de la Palette dans l'espace de modélisation graphique :

    • un tPigLoad, afin de charger les données à analyser,

    • un tPigFilterRow, afin de supprimer du flux d'entrée les enregistrements ayant l'erreur "404",

    • un tPigFilterColumns, afin de sélectionner les colonnes que vous souhaitez inclure dans les résultats,

    • un tPigAggregate, afin de compter le nombre de visites sur le site web,

    • un tPigSort, afin de trier les résultats et

    • un tPigStoreResult, afin de sauvegarder le résultat dans HDFS.

  3. Reliez ces composants à l'aide de liens Row > Pig Combine afin de former une chaîne Pig et, afin de mieux identifier leur rôle, renommez-les comme suit :