再利用可能なHadoopのプロパティの設定 - Cloud - 8.0

Talend Studioユーザーガイド

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
対象製品...

Big Data

Big Data Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

このタスクについて

Hadoop接続を設定する場合、Hive、HDFS、HBaseなどのHadoopの個々のエレメントへの子接続に再利用される一般的なHadoopのプロパティのセットを定義できます。

たとえば、Hadoopクラスターを使用する場合、hdfs-site.xmlファイルでHDFS高可用性(High Availability: HA)機能を定義してから、接続ウィザードで対応するプロパティを設定し、Studioの高可用性機能を有効にする必要があります。このプロパティは特定のHadoop関連コンポーネントでも設定できます。このプロセスは、StudioのHDFS高可用性機能を有効にする方法についての記事で説明されています。このセクションでは、接続ウィザードのアプローチについてのみ説明します。

前提条件:

  • 使用するHadoopディストリビューションを起動し、ディストリビューションへの適切なアクセス権があるかどうかを確認します。

  • Studioで設定される高可用性プロパティは、使用するクラスターのhdfs-site.xmlファイルで定義されています。

このサンプルでは、高可用性プロパティは以下のとおりです:
<property>  
  <name>dfs.nameservices</name>  
  <value>nameservice1</value>
</property>
<property>
  <name>dfs.client.failover.proxy.provider.nameservice1</name>
  <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<property>
  <name>dfs.ha.namenodes.nameservice1</name>
  <value>namenode90,namenode96</value>
</property>
<property>
  <name>dfs.namenode.rpc-address.nameservice1.namenode90</name>
  <value>hdp-ha:8020</value>
</property>
<property>
  <name>dfs.namenode.rpc-address.nameservice1.namenode96</name>
  <value>hdp-ha2:8020</value>
</property>

これらのプロパティの値は、デモンストレーションの目的でのみ使用されます。

Hadoop接続のこれらのプロパティを設定するには、[Repository] (リポジトリー)[Hadoop cluster] (Hadoopクラスター)ノードから[Hadoop Cluster Connection] (Hadoopクラスター接続)ウィザードを開きます。このウィザードへのアクセス方法の詳細は、Hadoop接続の一元化をご覧ください。

手順

  1. 使用するHadoopクラスターに対する接続を設定していない場合は、前のセクションで説明されているようにここで設定してください。
  2. [Hadoop properties] (Hadoopのプロパティ)の横の[...]ボタンをクリックし、[Hadoop properties] (Hadoopのプロパティ)テーブルを開きます。
  3. 上でリストされている高可用性プロパティをこのテーブルに追加します。
  4. [OK]をクリックして変更を確定します。すると、これらのプロパティは[...]ボタンのとなりに表示されます。
  5. [Check services] (サービスを確認)ボタンをクリックして、接続を確認します。
    プロセスの確認と接続状態を示すダイアログボックスが表示されます。ここで接続失敗と表示される場合、接続ウィザードで定義した接続情報を再確認してアップデートする必要があります。
  6. [Finish] (終了)をクリックして接続を確定します。
    ここで、たとえば、このHadoop接続からHiveへの子接続を作成する場合、これらの高可用性プロパティは読み取り専用の親プロパティとして継承されます。

タスクの結果

このように、これらのプロパティはその子Hadoop接続によって自動的に再利用できます。

上の図は、Hive接続ウィザードで継承されたプロパティを示しています。このセクションで説明されているHive接続ウィザードへのアクセス方法の詳細は、Hiveメタデータの一元管理をご覧ください。