Configurer les propriétés réutilisables de Hadoop - 7.1

Guide utilisateur de Talend Data Fabric Studio

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Fabric
task
Création et développement
EnrichPlatform
Studio Talend

Pourquoi et quand exécuter cette tâche

Lorsque vous configurez une connexion à Hadoop, vous pouvez définir un ensemble de propriétés Hadoop communes qui seront réutilisées par les connexions filles à chaque élément Hadoop individuel, comme Hive, HDFS ou HBase.

Par exemple, dans le cluster Hadoop à utiliser, vous avez configuré la fonctionnalité HDFS High Availability (Haute disponibilité) dans le fichier hdfs-site.xml du cluster même. Vous devez paramétrer les propriétés correspondantes dans l'assistant de connexion, afin d'activer la fonctionnalité de haute disponibilité dans le Studio. Notez que ces propriétés peuvent également être configurées dans un composant Hadoop spécifique. Le processus pour cela est expliqué dans l'article concernant l'activation de la Haute Disponibilité HDFS sur Activation de la fonctionnalité de Haute Disponibilité HDFS dans le Studio . Dans cette section, seule la méthode avec l'assistant est présentée.

Prérequis :

  • Lancez la distribution Hadoop à utiliser et assurez-vous d'avoir les droits d'accès à cette distribution et son Oozie.

  • Les propriétés de la haute disponibilité à configurer dans le Studio sont définies dans le fichier hdfs-site.xml du cluster à utiliser.

Dans cet exemple, les propriétés de la haute disponibilité se présentent comme suit :
<property>  
  <name>dfs.nameservices</name>  
  <value>nameservice1</value>
</property>
<property>
  <name>dfs.client.failover.proxy.provider.nameservice1</name>
  <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<property>
  <name>dfs.ha.namenodes.nameservice1</name>
  <value>namenode90,namenode96</value>
</property>
<property>
  <name>dfs.namenode.rpc-address.nameservice1.namenode90</name>
  <value>hdp-ha:8020</value>
</property>
<property>
  <name>dfs.namenode.rpc-address.nameservice1.namenode96</name>
  <value>hdp-ha2:8020</value>
</property>

Les valeurs des propriétés servent uniquement à la démonstration.

Pour configurer ces propriétés dans la connexion à Hadoop, ouvrez l'assistant Hadoop Cluster Connection depuis le nœud Hadoop cluster du Repository. Pour plus d'informations concernant l'accès à cet assistant, consultez Centraliser une connexion Hadoop.

Procédure

  1. Si ce n'est pas encore fait, configurez la connexion au cluster Hadoop à utiliser, comme expliqué dans les sections précédentes.
  2. Cliquez sur le bouton [...] à côté de Hadoop properties pour ouvrir la table Hadoop properties.
  3. Ajoutez les propriétés de haute disponibilité mentionnées ci-dessus dans la table.
  4. Cliquez sur OK pour valider les modifications. Ces propriétés sont listées à côté du bouton [...].
  5. Cliquez sur le bouton Check services afin de vérifier la connexion.
    Une boîte de dialogue s'ouvre pour indiquer le processus de vérification et le statut de connexion. Si la connexion échoue, vous devez vérifier et mettre à jour les informations de connexion définies dans l'assistant de connexion.
  6. Cliquez sur Finish afin de valider la connexion.
    Lorsque vous créez une connexion fille, par exemple à Hive, à partir de cette connexion Hadoop, la connexion fille hérite de ces propriétés de haute disponibilité, en lecture seule.

Résultats

Ces propriétés peuvent donc être réutilisées automatiquement par toute connexion fille de la connexion à Hadoop.

L'image ci-dessus présente les propriétés héritées dans l'assistant de connexion Hive. Pour plus d'informations concernant l'accès à l'assistant de connexion Hive présenté dans cette section, consultez Centraliser des métadonnées Hive.