Activation de la fonctionnalité de Haute Disponibilité HDFS dans le Studio

EnrichVersion
6.4
EnrichProdName
Talend Open Studio for Big Data
Talend Big Data
Talend Real-Time Big Data Platform
Talend Data Fabric
Talend Big Data Platform
task
Qualité et préparation de données > Systèmes tiers > Composants File (Intégration) > Composants HDFS
Création et développement > Systèmes tiers > Composants File (Intégration) > Composants HDFS
Gouvernance de données > Systèmes tiers > Composants File (Intégration) > Composants HDFS
EnrichPlatform
Studio Talend

Activation de la fonctionnalité de Haute Disponibilité HDFS dans le Studio

La fonctionnalité de Haute Disponibilité HDFS répond au problème du point unique de défaillance d'un cluster Hadoop typique.

Cet article décrit comment faire en sorte que votre Studio Talend avec Big Data utilise la fonctionnalité de Haute Disponibilité HDFS.

Environnement :

  • le Studio peut être n'importe quelle solution Talend avec Big Data.
  • le cluster Hadoop que vous utilisez avec le Studio doit supporter la fonctionnalité de Haute Disponibilité HDFS. Pour plus d'informations, consultez la documentation de la distribution Hadoop que vous utilisez.

  • Dans le cluster à utiliser, les propriétés requises par la Haute Disponibilité HDFS doivent avoir été configurées dans le fichier hdfs-site.xml, par l'administrateur.

Propriétés à configurer

Vous devez trouver les propriétés dans le fichier hdfs-site.xml du cluster Hadoop, afin de les reproduire dans le Studio.

Procédure

  1. Vous devez trouver la propriété dfs.nameservices.

    Par exemple, cette propriété doit être configurée comme ceci :

    <property>
       <name>dfs.nameservices</name>
       <value>nameservice1</value>
    </property>

    La valeur de cette propriété est fondamentale car elle définit le nom du nouveau service nameservice et est utilisée pour définir les autres propriétés requise par la fonctionnalité de Haute Disponibilité. Donc, vous devez utiliser cette valeur, nameservice1 dans cet exemple, pour trouver les autres propriétés à reproduire.

  2. Utilisez la valeur nameservice1 pour trouver les propriétés suivantes. Notez que cette valeur nameservice1 est utilisée à des fins de démonstration uniquement.
    <property>
      <name>dfs.client.failover.proxy.provider.nameservice1</name>
      <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
    </property>
    <property>
      <name>dfs.ha.namenodes.nameservice1</name>
      <value>namenode90,namenode96</value>
    </property>

    La valeur, namenode90,namenode96 dans cet exemple, de la propriété dfs.ha.namenodes.nameservice1 définit les ID des NameNodes dans ce service nameservice. Les ID sont séparés par une virgule (,).

  3. Utilisez les ID des NameNode définis dans la propriété dfs.ha.namenodes.nameservice1 pour trouver les propriétés suivantes :
    <property>
      <name>dfs.namenode.rpc-address.nameservice1.namenode90</name>
      <value>cdh4ha:8020</value>
    </property>
    <property>
      <name>dfs.namenode.rpc-address.nameservice1.namenode96</name>
      <value>cdh4ha2:8020</value>
    </property>

    Ils définissent l'adresse RPC de chaque NameNode dans ce nouveau service nameservice.

Résultats

Toutes les propriétés à reproduire ont été trouvées. Vous devez les configurer dans la table des propriétés Hadoop, fournie dans le Studio.

Configuration des propriétés dans le Studio

La table Hadoop properties est fournie avec de nombreux composants, avec la vue de configuration de Hadoop ou les assistants de métadonnées créant des connexions à un cluster Hadoop.

Dans cet article, l’exemple utilise un tHDFSConnection, afin de démontrer comment configurer les propriétés susmentionnées.

Procédure

  1. Après avoir déposé un tHDFSConnection dans l'espace de modélisation graphique du Job, double-cliquez sur ce composant pour ouvrir sa vue Component.
  2. Paramétrez la connexion au système HDFS à utiliser dans l'onglet Basic settings du composant.
  3. Sous la table Hadoop properties, cliquez cinq fois sur le bouton [+] pour ajouter cinq lignes.
  4. Saisissez chaque propriété susmentionnée dans l'une des lignes ajoutées, dans la colonne Property, respectivement.
  5. Dans la colonne Value, saisissez les valeurs correspondant à chaque propriété à configurer.

Résultats

Ces propriétés seront prises en compte lors de l'exécution, lorsque ce composant est utilisé pour se connecter à un cluster Hadoop.