自分のエンジンからHadoopクラスター上のファイルにアクセス - Cloud

Talend Remote Engine Gen2クイックスタートガイド

Version
Cloud
Language
日本語
Product
Talend Cloud
Module
Talend Management Console
Talend Pipeline Designer
Content
インストールとアップグレード
デプロイメント > デプロイ中 > パイプラインの実行
Last publication date
2024-01-25

始める前に

  • ボリュームが正しくマウントされないという問題を回避できるよう、必ず最新バージョンのdocker-composeを使用してください。
  • システム管理者に連絡し、Hadoop設定ファイル(core-site.xmlhdfs-site.xmlなど)の完全なリストセットを取得してください。
  • これらのHadoop設定ファイルを自分のローカルマシンのフォルダーに保存し、そのパスをコピーしてください。

手順

  1. Remote Engine Gen2インストールディレクトリーにある次のフォルダーに移動します:
    default - AWS米国、AWS欧州、AWSアジアパシフィック、Azureリージョンでエンジンを使用している場合

    eap - Early Adopter Program (早期導入者プログラム)の一部としてエンジンを使用している場合

  2. ファイルを新規作成し、
    docker-compose.override.ymlという名前を付けます。
  3. このファイルを編集して次の項目を追加します。
    version: '3.6'
    
    services: 
    
      livy: 
        environment: 
          HADOOP_CONF_DIR: file:/opt/my-hadoop-cluster-config
        volumes: 
          - YOUR_LOCAL_HADOOP_CONFIGURATION_FOLDER:/opt/my-hadoop-cluster-config
       
      component-server: 
        environment: 
          HADOOP_CONF_DIR: file:/opt/my-hadoop-cluster-config
        volumes: 
          - YOUR_LOCAL_HADOOP_CONFIGURATION_FOLDER:/opt/my-hadoop-cluster-config

    YOUR_LOCAL_HADOOP_CONFIGURATION_FOLDERには、Hadoop設定ファイルが保存されているローカルフォルダーへのパスが入ります。

  4. ファイルを保存して変更内容を反映させます。
  5. Remote Engine Gen2を再起動します。
  6. Talend Cloud Pipeline Designerに接続します。
  7. [Connections] (接続)ページに移動し、エンジンとローカルのユーザー名を使って新しいHDFS接続を追加します。
    新しいHDFS接続を追加します。
  8. この新しい接続を使って新しいHDFSデータセットを追加し、自分のファイルへのパス(たとえばhdfs://namenode:8020/user/talend/files)が使われるようにします。
    新しいHDFSデータセットを追加します。