Dans cette étape, vous configurez de dernier Job, F_Read_Results, afin de lire les données de résultats depuis Hadoop et les afficher dans la console du système.
Procédure
-
Double-cliquez sur le premier tHDFSInput pour ouvrir sa vue Basic settings.
- Afin d'utiliser une connexion à HDFS centralisée, ouvrez la liste Property Type et sélectionnez Repository. Cliquez ensuite [...] afin d'ouvrir la boîte de dialogue [Repository Content].
-
Sélectionnez la connexion à HDFS définie pour la connexion à la base de données HDFS puis cliquez sur OK.
Tous les détails de connexion sont automatiquement saisis dans les champs appropriés.
- Appliquez le schéma générique ip_count à ce composant. Le schéma doit contenir deux colonnes, host (de type String et d'une longueur de 50 caractères) et count (de type Integer et d'une longueur de 5 caractères),
- Dans le champ File Name, saisissez le chemin d'accès vers le fichier de résultats dans HDFS, /user/hdp/weblog/apache_ip_cnt/part-r-00000 dans cet exemple.
- Dans la liste Type, sélectionnez le type de fichier à lire, Text File dans cet exemple.
- Dans la vue Basic settings du tLogRow, sélectionnez l'option Table pour une meilleure lisibilité des résultats.
-
Configurez l'autre sous-job de la même manière. Cependant, dans le second tHDFSInput :
- Appliquez le schéma générique code_count ou configurez manuellement le schéma de ce composant afin qu'il contienne deux colonnes : code (de type Integer et d'une longueur de 5 caractères) et count (de type Integer et d'une longueur de 5 caractères).
- Dans le champ File Name, saisissez /user/hdp/weblog/apache_code_cnt/part-r-00000.
- Une fois les paramètres des composants définis, appuyez sur Ctrl+S pour sauvegarder la configuration du Job.