Configurer les informations de la connexion HDFS

Talend Real-time Big Data Platform Studio Guide utilisateur

EnrichVersion
6.4
EnrichProdName
Talend Real-Time Big Data Platform
task
Qualité et préparation de données
Création et développement
EnrichPlatform
Studio Talend

Avant d'exécuter ou de planifier les exécutions d'un Job sur un serveur HDFS, vous devez d'abord configurer les détails de la connexion HDFS, dans la vue Oozie scheduler, puis spécifier l'emplacement où sera déployé votre Job.

Définir les détails de la connexion HDFS dans la vue Oozie scheduler

Afin de configurer les détails de la connexion HDFS dans la vue Oozie scheduler procédez comme suit :

  1. Cliquez sur la vue Oozie scheduler en bas de l'espace de modélisation graphique.

  2. Cliquez sur Setting pour ouvrir la boîte de dialogue de la connexion.

    Avertissement

    Les paramètres de connexion affichés ci-dessus sont donnés à titre d'exemple.

    • Si vous avez configuré la connexion Oozie dans le référentiel, comme expliqué dans Centraliser une connexion Oozie, vous pouvez la réutiliser.

      Pour ce faire, sélectionnez Repository dans la liste Property type, cliquez sur le bouton [...] pour ouvrir la boîte de dialogue [Repository Content] et sélectionnez la connexion à Oozie à utiliser.

    • Sinon, renseignez les informations dans les champs correspondants, comme expliqué dans le tableau ci-dessous.

    Champ/OptionDescription

    Hadoop distribution

    Distribution Hadoop à laquelle vous connecter. Cette distribution héberge le système de fichiers HDFS à utiliser. Si vous sélectionnez Custom pour vous connecter à une distribution Hadoop personnalisée, cliquez sur le bouton [...] pour ouvrir la boîte de dialogue [Import custom definition]. Dans cette boîte de dialogue, importez les fichiers Jar requis par la distribution personnalisée.

    Pour plus d'informations, consultez la Connexion à une distribution Hadoop personnalisée.

    Hadoop version

    Version de la distribution Hadoop distribution à laquelle vous connecter. Cette liste disparaît si vous sélectionnez Custom dans la liste Hadoop distribution.

    Enable kerberos security

    Si vous accédez au cluster Hadoop fonctionnant avec la sécurité Kerberos, cochez cette case, puis saisissez le Principal Name de Kerberos pour le NameNode dans le champ affiché. Cela vous permet d'utiliser votre nom d'utilisateur pour vous authentifier, en les comparant aux informations stockées dans Kerberos.

    Cette case est disponible ou non selon la distribution Hadoop à laquelle vous vous connectez.

    User Name

    Nom d'utilisateur.

    Name node end point

    URI du NameNode, le cœur du système de fichier HDFS.

    Job tracker end point

    URI du nœud Job Tracker, qui sous-traite les tâches MapReduce dans des nœuds spécifiques du cluster.

    Oozie end point

    URI de la console Web d'Oozie, pour le monitoring de l'exécution du Job.

    Hadoop Properties

    Si vous devez utiliser une configuration personnalisée pour la distribution d'Hadoop à utiliser, renseignez cette table avec la ou les propriété(s) à personnaliser. Lors de l'exécution, les propriétés personnalisées écrasent celles par défaut utilisées par le studio pour son moteur Hadoop.

    Pour plus d'informations concernant les propriétés requises par Hadoop, consultez la documentation de Apache Hadoop à l'adresse suivante : http://hadoop.apache.org (en anglais) ou la documentation de la distribution Hadoop que vous utilisez.

    Note

    Les paramètres configurés dans cette table sont effectifs dans le Job pour lequel ils on été définis.

Une fois configuré le chemin de déploiement dans la vue Oozie scheduler, vous pouvez planifier les exécutions de votre Job, ou l'exécuter immédiatement sur le serveur HDFS.