Spark UniversalでAmazon EMR接続パラメーターを定義 - Cloud - 8.0

Talend Studioユーザーガイド

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend Studio
Content
ジョブデザインと開発
対象製品...

Big Data

Big Data Platform

Cloud Big Data

Cloud Big Data Platform

Cloud Data Fabric

Data Fabric

Real-Time Big Data Platform

Amazon EMRディストリビューションを使ってYARNクラスターでSparkジョブを実行する場合、Amazon EMRではメインノードと従属ノードにあるクラスパスが同じではないため、ライブラリをー手動で配布する必要があります。

このタスクについて

コマンドプロンプトを使って次のアクションを完了させ、メインノードと従属ノードの間でライブラリーを分配します。

手順

  1. PEMファイルをクラスターにアップロードします。
    
    scp -i username_EC2.pem sanulich_EC2.pem hadoop@<mainNode>:/home/hadoop
  2. PEMファイルの権限が正しいことを確認します。
    ssh -i username_EC2.pem hadoop@<mainNode>
    ls -al
    正しい権限は次のとおりであることが必要です。
     -r--------  1 username username    1674 кві 11 16:26  username_EC2.pem
  3. オプション: PEMファイルの権限が正しくない場合は、次のように権限を変更します。
    
    chmod -rwx username_EC2.pem
    chmod  u+r username_EC2.pem
  4. Amazon EMRインスタンスに移動し、従属ノードのホスト名を見つけます。
  5. メインノードから従属ノードにJARファイルをコピーします。
    scp -i /home/hadoop/username_EC2.pem  /usr/lib/spark/jars/*.jar hadoop@<slaveNode>:/home/hadoop
  6. メインノードからそれぞれの従属ノードに接続します。
    ssh -i /home/hadoop/username_EC2.pem hadoop@<slaveNode>
  7. JARファイルを移動させます。
    sudo mv /home/hadoop/*.jar /usr/lib/spark/jars
  8. Talend Studioを開いた後、Sparkジョブを開きます。
  9. デザインワークスペースの下にある[Run] (実行)ビューをクリックした後に、[Spark configuration] (Spark設定)ビューをクリックします。
  10. [Advanced properties] (詳細プロパティ)テーブルに、spark.hadoop.dfs.client.use.datanode.hostnameプロパティをTrue値で追加します。

タスクの結果

Sparkジョブが正しく設定され、Amazon EMRディストリビューションでYARNクラスターモードによって実行されるようになります。