Hadoop接続の一元化 - 7.0

Talend Big Data Platform Studioユーザーガイド

author
Talend Documentation Team
EnrichVersion
7.0
EnrichProdName
Talend Big Data Platform
task
ジョブデザインと開発
EnrichPlatform
Talend Studio

このタスクについて

特定のHadoopディストリビューションへの接続を[Repository] (リポジトリー)でセットアップすると、同じHadoopディストリビューションを使用するたびに接続を設定する必要がなくなります。

[Hadoop cluster] (Hadoopクラスター)ノードからHDFS、Hive、OozieなどHadoopの個々のエレメントへの接続を作成する前に、Hadoopの接続を定義する必要があります。

前提条件:
  • Talend Studioがインストールされているクライアントマシンが、使用するHadoopクラスターのノードのホスト名を認識できることを確認します。そのためには、そのHadoopクラスターのサービスに使用するIPアドレス/ホスト名のマッピングエントリーをクライアントマシンのhostsファイルに追加します。

    たとえば、Hadoopネームノードサーバーのホスト名がtalend-cdh550.weave.localで、IPアドレスが192.168.x.xの場合、マッピングエントリーは192.168.x.x talend-cdh550.weave.localとなります。

  • 使用するHadoopクラスターが正しく設定され、実行中であること。

  • Integrationパースペクティブがアクティブであること。

  • StudioからMapRに接続する場合は、Studioと同じマシンにMapRクライアントがインストールされており、MapRクライアントのライブラリーがそのマシンのPATH変数に追加されていることを確認します。MapRのドキュメンテーションによると、各OSバージョンに対応するMapRクライアントのライブラリーは、MAPR_INSTALL\/hadoop\hadoop-VERSION/lib/nativeにあるとされています。たとえば、Windows版のライブラリーは、\lib\native\MapRClient.dllにあるMapRクライアントのjarファイルにあります。詳細は、MapRからhttp://www.mapr.com/blog/basic-notes-on-configuring-eclipse-as-a-hadoop-development-environment-for-maprを参照して下さい。

[Repository] (リポジトリー)でHadoop接続を作成するには、次の手順に従います。

手順

  1. Studioの[Repository] (リポジトリー)ツリービューで、[Metadata] (メタデータ)を展開し、[Hadoop cluster] (Hadoopクラスター)を右クリックします。
  2. コンテキストメニューから[Create Hadoop cluster] (Hadoopクラスターの作成)を選択し、[Hadoop cluster connection] (Hadoopクラスターの接続)ウィザードを開きます。
  3. [Name] (名前)や[Description] (説明)など、この接続に関する一般情報を入力し、[Next] (次へ)をクリックして[Hadoop Configuration Import Wizard] (Hadoop設定インポートウィザード)ウィンドウを開きます。ここで手動または自動モードを選択して接続を設定します。