Hadoop接続の手動セットアップ - 7.1

Talend Data Fabric入門ガイド

author
Talend Documentation Team
EnrichVersion
7.1
EnrichProdName
Talend Data Fabric
task
インストールとアップグレード
ジョブデザインと開発
データクオリティとプレパレーション > データクレンジング
データクオリティとプレパレーション > データプロファイリング
EnrichPlatform
Talend Administration Center
Talend DQ Portal
Talend Installer
Talend Runtime
Talend Studio
特定のHadoopディストリビューションへの接続を[Repository] (リポジトリー)でセットアップすると、同じHadoopディストリビューションを使用するたびに接続を設定する必要がなくなります。

始める前に

  • Talend Studioがインストールされているクライアントマシンが、使用するHadoopクラスターのノードのホスト名を認識できることを確認する必要があります。そのためには、そのHadoopクラスターのサービスに使用するIPアドレス/ホスト名のマッピングエントリをクライアントマシンのhostsファイルに追加します。

    たとえば、Hadoopネームノードサーバーのホスト名がtalend-cdh550.weave.localで、IPアドレスが192.168.x.xの場合、マッピングエントリは192.168.x.x talend-cdh550.weave.localとなります。

  • 使用するHadoopクラスターが正しく構成され、実行されています。

  • Integrationパースペクティブがアクティブであること。

この例で使用するCloudera HadoopクラスターはYarnモードのCDH V5.5のもので、Kerberosセキュリティを有効にすることなくディストリビューションのデフォルト設定が適用されます。CDH V5.5ディストリビューションのデフォルト設定については、『Deploy CDH 5 on a cluster』および『Default ports used in CDH5』を参照して下さい。

手順

  1. Studioの[Repository] (リポジトリ)ツリービューで、[Metadata] (メタデータ)を展開し、[Hadoop cluster] (Hadoopクラスター)を右クリックします。
  2. コンテキストメニューから[Create Hadoop cluster] (Hadoopクラスターの作成)を選択し、[Hadoop cluster connection] (Hadoopクラスターの接続)ウィザードを開きます。
  3. [Name] (名前)[Description] (説明)など、この接続に関する一般情報を入力し、[Next] (次へ)をクリックして[Hadoop configuration import wizard] (Hadoop設定インポートウィザード)を開きます。これを使用して、すぐに使える設定をインポートすることができます。
  4. [Enter manually Hadoop services] (Hadoopサービスを手動で入力)チェックボックスをオンにして、作成するHadoop接続の設定情報を手動で入力します。
  5. [Finish] (終了)をクリックし、このインポートウィザードを閉じます。
  6. [Distribution] (ディストリビューション)リストからClouderaを選択し、[Version] (バージョン)リストから[Cloudera CDH5.5 (YARN mode)] (Cloudera CDH5.5 (YARNモード))を選択します。
  7. [Namenode URI] (ネームノードURI)フィールドに、使用するCloudera Hadoopクラスターのネームノードサービスとして使用するマシンをポイントするURIを入力します。

    ネームノードは、Hadoopシステムのマスターノードです。たとえば、ネームノードとしてmachine1という名前のマシンを選択したとすると、入力するロケーションはhdfs://machine1:portnumberとなります。

    クラスター側では、関連するプロパティがcore-site.xmlという名前の設定ファイル内に指定されています。入力すべきURIがわからない場合は、クラスターのcore-site.xmlファイルでfs.defaultFSプロパティを確認して下さい。

  8. [Resource manager] (リソースマネージャー)フィールドと[Resource manager scheduler] (リソースマネージャースケジューラー)フィールドに、これら2つのサービスをポイントするURIをそれぞれ入力します。

    クラスター側では、これら2つのサービスは同じホストマシンを共有しますが、異なるデフォルトポート番号を使用します。たとえば、それらをホストしているマシンがresourcemanager.company.comである場合、リソースマネージャーのロケーションはresourcemanager.company.com:8032で、リソースマネージャースケジューラーのロケーションはresourcemanager.company.com:8030です。

    これらのサービスのホストマシンの名前がわからない場合は、クラスターのyarn-site.xmlという設定ファイルでyarn.resourcemanager.hostnameプロパティを確認して下さい。

  9. [Job history] (ジョブ履歴)フィールドにジョブ履歴サービスのロケーションを入力します。このサービスにより、現在のジョブのメトリックス情報がJobHistoryサーバーに保存されます。

    関連するプロパティは、クラスターのmapred-site.xmlという設定ファイル内で指定されています。このフィールドに入力する必要のある値は、このmapred-site.xmlファイルでmapreduce.jobhistory.addressプロパティを確認して下さい。

  10. [Staging directory] (ステージングディレクトリー)フィールドに、プログラムの実行によって作成された一時ファイルを保存するためにHadoopクラスターで定義されているこのディレクトリーを入力します。

    関連するプロパティは、クラスターのmapred-site.xmlファイル内で指定されています。詳細は、このmapred-site.xmlファイルのyarn.app.mapreduce.am.staging-dirプロパティを確認して下さい。

  11. [Use datanode hostname] (データノードホスト名を使用)チェックボックスをオンにして、クラスターの各データノードへのホスト名によるアクセスをStudioに許可します。

    これにより、クラスターのdfs.client.use.datanode.hostnameプロパティが実際にはtrueに設定されます。

  12. [User name] (ユーザー名)フィールドに、StudioがHadoopクラスターに接続するときに使用するユーザー認証名を指定します。
  13. 接続先とするHadoopクラスターはデフォルト設定を使用しているため、このウィザードのその他のフィールドやチェックボックスはそのままにしておきます。それらはカスタムHadoop設定の定義に使用されるためです。
  14. [Check services] (サービスの確認)ボタンをクリックして、指定したネームノードおよびリソースマネージャーサービスにStudioから接続できることを確認します。

    プロセスの確認と接続状態を示すダイアログボックスが表示されます。

    接続に障害が発生した場合は、各進行状況バーの末尾にある[Error log] (エラーログ)をクリックして、接続の問題を診断することができます。

  15. 接続の成功が確認されたら、[Finish] (終了)をクリックして変更を確定し、ウィザードを閉じます。

タスクの結果

新しい接続(この例ではmy_cdhという名前)が、[Repository] (リポジトリー)ツリービューの[Hadoop cluster] (Hadoopクラスター)フォルダーの下に表示されます。

この接続に基づいて、HDFSやHiveなど、さまざまなHadoopエレメントに対する子接続を引き続き作成することができます。