Charger le fichier de log dans HCatalog - 7.1

Exemples de Jobs Big Data

EnrichVersion
7.1
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Open Studio for Big Data
Talend Real-Time Big Data Platform
EnrichPlatform
Studio Talend
task
Création et développement > Création de Jobs
Création et développement > Création de Jobs > Distributions Hadoop
Création et développement > Création de Jobs > Frameworks de Jobs > Standard
Cette étape détaille comment configurer le deuxième Job,B_HCatalog_Load, afin de charger le fichier de registre dans le système Hadoop.

Procédure

  1. Double-cliquez sur le composant tApacheLogInput pour ouvrir sa vue Basic settings et spécifiez le chemin d'accès au fichier de log à charger, dans le champ File Name.

    Dans cette exemple, le fichier de log access_log est stocké dans le dossier C:/Talend/BigData.

  2. Double-cliquez sur le tFilterRow afin d'ouvrir sa vue Basic settings.
  3. Dans la liste Logical operator used to combine conditions, sélectionnez AND.
  4. Cliquez sur le bouton [+] afin d'ajouter une ligne dans la table Filter configuration. Définissez les paramètres de filtre afin d'envoyer les enregistrements contenant le code "301" vers le flux Reject et passer le reste des enregistrements au flux Filter :
    1. Dans le champ InputColumn, sélectionnez la colonne code du schéma.
    2. Dans le champ Operator, sélectionnez Not equal to.
    3. Dans le champ Value, saisissez 301.
  5. Double-cliquez sur le tHCatalogOutput pour ouvrir la vue Basic settings.
  6. Afin d'utiliser une connexion à HCatalog centralisée, ouvrez la liste Property Type et sélectionnez Repository. Cliquez ensuite [...] afin d'ouvrir la boîte de dialogue [Repository Content].
  7. Sélectionnez la connexion à HCatalog définie pour la connexion à la base de données HCatalog puis cliquez sur OK.

    Tous les détails de connexion sont automatiquement saisis dans les champs appropriés.

  8. Cliquez sur le bouton [...] pour vérifier que le schéma a bien été propagé depuis le composant précédent. Si nécessaire, cliquez sur le bouton Sync columns afin de récupérer le schéma.
  9. Dans la liste Action, sélectionnez Create pour créer le fichier, ou Overwrite si le fichier existe déjà.
  10. Dans le champ Partition, saisissez, entre guillemets doubles, la paire de partition nom-valeur, ipaddresses='192.168.1.15' dans cet exemple.
  11. Dans le champ File location, saisissez l'emplacement où sauvegarder les données, /user/hdp/weblog/access_log dans cet exemple.
  12. Double-cliquez sur le tLogRow afin d'ouvrir sa vue Basic settings. Sélectionnez l'option Vertical afin d'afficher chaque ligne du contenu de sortie sous forme de liste pour une meilleure lisibilité.
  13. Une fois les paramètres des composants définis, appuyez sur Ctrl+S pour sauvegarder la configuration du Job.