EMRクラスターのHDFSファイルシステムへの接続を設定する - 7.3

Amazon EMR distribution

Version
7.3
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発 > ジョブデザイン > Hadoopディストーション > Amazon EMR
Last publication date
2024-02-22

手順

  1. tHDFSConfigurationをダブルクリックして、その[Component] (コンポーネント)ビューを開きます。

    Sparkはこのコンポーネントを使って、ジョブに依存するjarファイルの転送先HDFSシステムに接続します。

  2. HDFS接続メタデータを[Repository] (リポジトリー)内の[Hadoop cluster] (Hadoopクラスター)ノードの下で定義した場合は、[Property type] (リポジトリータイプ)ドロップダウンリストから[Repository] (リポジトリー)を選択し、[...]ボタンをクリックして、[Repository content] (リポジトリーのコンテンツ)ウィザードから定義済みのHDFS接続を選択します。

    再利用可能なHDFS接続の設定に関する詳細は、Talend Help Center (https://help.talend.com)でHDFSメタデータの一元管理を検索してください。

    この手順を完了すると、tHDFSConfigurationの設定に関する以下の手順はスキップできます。必須フィールドはすべて自動入力されているためです。

  3. [Version] (バージョン)エリアで、接続する必要のあるHadoopディストリビューションとそのバージョンを選択します。
  4. [NameNode URI]フィールドで、クラスターのNameNodeサービスをホストするマシンのロケーションを入力します。 WebHDFSを使用している場合、ロケーションはwebhdfs://masternode:portnumberとなります。WebHDFS with SSLはまだサポートされていません。
  5. [Username] (ユーザー名)フィールドで、使用するHDFSシステムへの接続に使う認証情報を入力します。ユーザー名は、[Spark configuration] (Spark設定)タブで入力したユーザー名と同じにする必要があります。