Centraliser une connexion Oozie - 7.0

Guide utilisateur de Talend Big Data Platform Studio

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
Création et développement
EnrichPlatform
Studio Talend

Pourquoi et quand exécuter cette tâche

Si vous avez souvent besoin d'utiliser Oozie scheduler (l'ordonnanceur Oozie) afin de lancer et de monitorer des Jobs dans Hadoop, vous pouvez également centraliser les paramètres d'Oozie dans le dossier Metadata du Repository.

Prérequis :

  • Lancez la distribution Hadoop à utiliser et assurez-vous d'avoir les droits d'accès à cette distribution et son Oozie.

  • Créez la connexion vers cette distribution Hadoop depuis le nœud Hadoop cluster. Pour plus d'informations, consultez Centraliser une connexion Hadoop.

Le composant Oozie scheduler est utilisé pour planifier les exécutions d'un Job, déployer ou exécuter des Jobs dans HDFS et monitorer les exécutions. Afin de créer une connexion Oozie, procédez comme suit :

Procédure

  1. Développez le nœud Hadoop cluster situé sous le nœud Metadata dans la vue Repository. Cliquez-droit sur la connexion Hadoop à utiliser et sélectionnez Create Oozie dans le menu contextuel.
  2. Dans l'assistant de connexion qui s'ouvre, renseignez les propriétés génériques de la connexion que vous devez créer, notamment le nom (champ Name), l'objectif (champ Purpose) et la Description. Le champ Status est un champ que vous pouvez personnaliser dans la fenêtre [File] > [Edit project properties].
  3. Une fois les champs renseignés, cliquez sur Next pour passer à l'étape suivante. Renseignez les informations de connexion à Oozie. Dans le champ End Point, l'URL de l'application Web est automatiquement construite avec le nom d'hôte du NameNode de la connexion Hadoop que vous utilisez et le port par défaut d'Oozie. Cette application Web vous permet également de consulter le statut des exécutions de Job planifiées dans la console Oozie Web Console dans votre navigateur Web.
    Si la distribution Hadoop que vous sélectionnez autorise la sécurité Kerberos, le champ User name est désactivé.
    Vous pouvez modifier l'URL d'Oozie si nécessaire.
  4. Si vous devez utiliser une configuration personnalisée pour votre distribution d'Hadoop, cliquez sur le bouton [...] à côté de Hadoop properties pour ouvrir la table des propriétés et ajouter la ou les propriété(s) à personnaliser. Lors de l'exécution, les propriétés personnalisées écrasent celles par défaut utilisées par le Studio pour son moteur Hadoop.
    Une table Parent Hadoop properties s'affiche au-dessus de la table des propriétés que vous modifiez. La table mère est en lecture seule et affiche les propriétés Hadoop ayant été définies dans l'assistant de la connexion Hadoop mère, sur laquelle se base la connexion à Oozie.
    Pour plus d'informations concernant les propriétés Oozie de Hadoop, consultez la documentation de Apache Hadoop relative à Oozie à l'adresse suivante : http://oozie.apache.org (en anglais) ou la documentation de la distribution Hadoop que vous utilisez. Par exemple, la page suivante liste certaines propriétés Hadoop : https://oozie.apache.org/docs/4.1.0/AG_HadoopConfiguration.html (en anglais).
    Pour tirer parti de cette table des propriétés, consultez Configurer les propriétés réutilisables de Hadoop.
  5. Dans le champ User name, saisissez votre nom d'utilisateur Oozie ou laissez ce champ vide pour utiliser un accès anonyme. Dans ce cas, le nom de la machine client est utilisé.
  6. Cliquez sur Check afin de vérifier si votre connexion est établie.
    Un message s'ouvre pour indiquer que la connexion est établie.
  7. Cliquez sur Finish afin de valider ces changements.
    La connexion Oozie que vous avez créée apparaît sous le nœud Hadoop cluster dans le Repository.
    Remarque :

    Cette vue Repository peut varier suivant l'édition du Studio que vous utilisez.

Résultats

Lorsque vous configurez l'ordonnanceur Oozie (Oozie scheduler) pour un Job dans la vue Oozie scheduler, vous pouvez réutiliser les paramètres centralisés d'Oozie.

Pour plus d'informations concernant la manière d'utiliser Oozie scheduler pour un Job, consultez Exécution d'un Job via Oozie.

Si vous devez utiliser un contexte environnemental pour définir les paramètres de cette connexion, cliquez sur le bouton Export as context pour ouvrir l'assistant correspondant et choisir parmi les options suivantes :
  • Create a new repository context : créer le contexte environnemental depuis la connexion Hadoop actuelle, c'est-à-dire que les paramètres à configurer dans l'assistant sont pris comme variables de contexte avec les valeurs données à ces paramètres.

  • Reuse an existing repository context : utiliser les variables d'un contexte environnemental afin de configurer la connexion actuelle.

Si vous devez annuler l'implémentation du contexte, cliquez sur Revert context. Les valeurs des variables de contexte utilisées sont directement mises dans l'assistant.

Pour un exemple étape par étape concernant l'utilisation de la fonctionnalité Export as context, consultez Exporter une métadonnée en tant que contexte et réutiliser ses paramètres de contexte pour configurer une connexion.