再利用可能なHadoopプロパティの設定 - 7.1

Talend Real-time Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Real-Time Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

このタスクについて

Hadoop接続を設定する場合、Hive、HDFS、HBaseなどのHadoopの個々のエレメントへの子接続に再利用される一般的なHadoopプロパティのセットを定義できます。

たとえば、Hadoopクラスターを使用する場合、hdfs-site.xmlファイルでHDFS高可用性(High Availability: HA)機能を定義してから、接続ウィザードで対応するプロパティを設定し、Studioの高可用性機能を有効にする必要があります。これらのプロパティは、特定のHadoop関連のコンポーネントでも設定できます。また、設定のプロセスは、 StudioでのHDFS高可用性の有効化 に記載されているHDFS高可用性の有効化に関する記事で説明しています。このセクションでは、接続ウィザードのアプローチについてのみ説明します。

前提条件:

  • 使用するHadoopディストリビューションを起動し、ディストリビューションとOozieへの適切なアクセス権があるかどうかを確認します。

  • Studioで設定される高可用性プロパティは、使用するクラスターのhdfs-site.xmlファイルで定義されています。

このサンプルでは、高可用性プロパティは以下のとおりです:
<property>  
  <name>dfs.nameservices</name>  
  <value>nameservice1</value>
</property>
<property>
  <name>dfs.client.failover.proxy.provider.nameservice1</name>
  <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<property>
  <name>dfs.ha.namenodes.nameservice1</name>
  <value>namenode90,namenode96</value>
</property>
<property>
  <name>dfs.namenode.rpc-address.nameservice1.namenode90</name>
  <value>hdp-ha:8020</value>
</property>
<property>
  <name>dfs.namenode.rpc-address.nameservice1.namenode96</name>
  <value>hdp-ha2:8020</value>
</property>

これらのプロパティの値は、デモンストレーションの目的でのみ使用されます。

Hadoop接続のこれらのプロパティを設定するには、[Repository] (リポジトリー)[Hadoop cluster] (Hadoopクラスター)ノードから[Hadoop Cluster Connection] (Hadoopクラスター接続)ウィザードを開きます。このウィザードへのアクセス方法の詳細は、Hadoop接続の一元化を参照して下さい。

手順

  1. 使用するHadoopクラスターに対する接続を設定していない場合は、前のセクションで説明されているようにここで設定して下さい。
  2. [Hadoop properties] (Hadoopプロパティ)のとなりの[...]ボタンをクリックし、[Hadoop properties] (Hadoopプロパティ)テーブルを開きます。
  3. 上でリストされている高可用性プロパティをこのテーブルに追加します。
  4. [OK]をクリックして、変更を確定します。すると、これらのプロパティは[...]ボタンのとなりに表示されます。
  5. [Check services] (サービスの確認)ボタンをクリックして、接続を確認します。
    プロセスの確認と接続状態を示すダイアログボックスが表示されます。ここで接続失敗と表示される場合、接続ウィザードで定義した接続情報を再確認して更新する必要があります。
  6. [Finish] (終了)をクリックして接続を確定します。
    ここで、たとえば、このHadoop接続からHiveへの子接続を作成する場合、これらの高可用性プロパティは読み取り専用の親プロパティとして継承されます。

タスクの結果

このように、これらのプロパティはその子Hadoop接続によって自動的に再利用することができます。

上の図は、Hive接続ウィザードで継承されたプロパティを示しています。このセクションで説明されているHive接続ウィザードへのアクセス方法の詳細は、Hiveメタデータの一元化を参照して下さい。