ジョブスクリプトでのSpark接続の定義 - Cloud - 8.0

Talendジョブスクリプトリファレンスガイド

Version
Cloud
8.0
Language
日本語
Product
Talend Big Data
Talend Big Data Platform
Talend Cloud
Talend Data Fabric
Talend Data Integration
Talend Data Management Platform
Talend Data Services Platform
Talend ESB
Talend MDM Platform
Talend Real-Time Big Data Platform
Module
Talend CommandLine
Talend Studio
Content
ジョブデザインと開発 > ジョブデザイン
Last publication date
2024-02-22
addParameters{}関数内のaddElementParameters{}関数を使用して、ジョブスクリプト内にSpark接続を定義します。

addElementParameters {}プロパティ

使用するSparkクラスターの選択に関連するプロパティは、次のとおりです。

関数/パラメーター 説明 必須

SPARK_LOCAL_MODE

Sparkジョブをローカルモードで実行するには、trueと入力します。デフォルトでは、この値はfalseになっています。すなわち、リモートクラスターを使用する設定です。

ローカルモードでは、ジョブを実行するためのSpark環境がTalend Studioによって即座に構築されます。計算の実行のために、ローカルマシンの各プロセッサーがSparkワーカーとして使用されます。

このモードでは、ローカルファイルシステムが使われます。したがって、リモートファイルシステムへの接続情報を提供するtS3ConfigurationtHDFSConfigurationなどのコンポーネントがジョブ内に配置されている場合は、これらの設定コンポーネントを無効にします。

これ以上は何も設定せずにジョブを起動できます。

はい

SPARK_LOCAL_VERSION

ローカルモードで使用するSparkのバージョンを入力します。このプロパティは、SPARK_LOCAL_MODEtrueを入力した場合にのみ関連します。

Talend Studioでは、バージョンが2.0未満のSparkのローカルモードによる使用をサポートしていません。たとえば、"SPARK_2_1_0"という値を入力します。

Sparkのローカルモードが使用されている場合はYesになります。

DISTRIBUTION

お使いのディストリビューションのプロバイダー名を入力してください。

ディストリビューションに応じて、次の値のいずれか1つを入力します。
  • "CLOUDERA"
  • "CLOUDERA_ALTUS"
  • "GOOGLE_CLOUD_DATAPROC"
  • "HORTONWORKS"
  • "MAPR"
  • "MICROSOFT_HD_INSIGHT"

SparkのローカルモードもAmazon EMRディストリビューションも使用していない場合は「はい」になります。

SPARK_VERSION

お使いのディストリビューションのバージョンを入力します。

次のリストには、利用可能な各ディストリビューションのフォーマット例がリスト表示されています。
  • "Cloudera_CDH12_5"
  • "Cloudera_Altus_CDH5_11"
  • "DATAPROC_1_1"
  • "HDP_2_6"
  • "MAPR600"
  • "MICROSOFT_HD_INSIGHT_3_6"
  • "EMR_5_5_0"

Talendでサポートされているディストリビューションバージョンの詳細は、Talendジョブでサポートされているビッグデータプラットフォームディストリビューションのバージョンをご覧ください。

Sparkのローカルモードを使用していない場合は「はい」になります。

SUPPORTED_SPARK_VERSION

ディストリビューションで使用しているSparkのバージョンを入力します。例: "SPARK_2_1_0"

Sparkのローカルモードを使用していない場合は「はい」になります。

SPARK_API_VERSION

"SPARK_200"と入力します。これは、Talendで使用されているSpark APIのバージョンです。

はい

SET_HDP_VERSION

trueを入力すると、Hortonworksクラスターがそのバージョンを格納するためにhdp.version変数を使用しています。それ以外の場合は、falseを入力します。この情報が不明な場合は、クラスターの管理者にお問い合わせください。

Hortonworksを使用している場合は「はい」になります。

HDP_VERSION

使用するHortonworkのバージョンを入力します。例: "\"2.6.0.3-8\"" この情報が不明な場合は、クラスターの管理者にお問い合わせください。

バージョン番号はクラスターのyarn-site.xmlファイルにも追加する必要があります。この例では、hdp.version=2.6.0.3-8を追加します。

SET_HDP_VERSIONtrueを入力した場合は「はい」になります。

SPARK_MODE

Sparkクラスターが実装されているモードを入力します。

状況に応じて、次の値のいずれか1つを入力します。
  • "CLUSTER": Sparkのスタンドアロンモードで実行することを意味します。
  • "YARN_CLIENT"

Sparkのローカルモードを使用していない場合は「はい」になります。

Sparkへの接続設定に関連するプロパティは、次のとおりです。

関数/パラメーター 説明 必須

RESOURCE_MANAGER

使用するHadoopクラスターのResourceManagerサービスのアドレスを入力します。

Yarnクライアントモードを使用している場合は「はい」になります。

SET_SCHEDULER_ADDRESS

クラスターにResourceManager スケジューラーがある場合はtrueと入力します。それ以外の場合はfalseと入力します。

Yarnクライアントモードを使用している場合は「はい」になります。

RESOURCEMANAGER_SCHEDULER_ADDRESS

スケジューラーのアドレスを入力します。

SET_SCHEDULER_ADDRESStrueを入力した場合は「はい」になります。

SET_JOBHISTORY_ADDRESS

クラスターにジョブヒストリーサービス がある場合はtrueと入力します。それ以外の場合はfalseと入力します。

Yarnクライアントモードを使用している場合は「はい」になります。

JOBHISTORY_ADDRESS

使用するHadoopクラスターのジョブヒストリーサーバーの場所を入力します。これにより、現在のジョブのメトリックス情報がそのJobHistoryサーバーに保存されます。

SET_JOBHISTORY_ADDRESStrueを入力した場合は「はい」になります。

SET_STAGING_DIRECTORY

実行中のプログラムによって作成された一時ファイルを保存するステージングディレクトリーがクラスターにある場合はtrueと入力します。それ以外の場合はfalseと入力します。

Yarnクライアントモードを使用している場合は「はい」になります。

STAGING_DIRECTORY

このディレクトリーに、たとえば"\"/user\""と入力します。一般的には、このディレクトリーはディストリビューションのyarn-site.xmlmapred-site.xmlなどの設定ファイル内にあるyarn.app.mapreduce.am.staging-dirプロパティの下にあります。

SET_STAGING_DIRECTORYtrueを入力した場合は「はい」になります。

HDINSIGHT_ENDPOINT

HDInsightクラスターのエンドポイントを入力します。例: "\"https://mycluster.azurehdinsight.net\""

関連するディストリビューションを使用している場合は「はい」になります。

HDINSIGHT_USERNAMEおよびHDINSIGHT_PASSWORD

  • [Username] (ユーザー名)は、クラスターの作成時に定義されたものです。これは、クラスターの[SSH + Cluster] (SSH + クラスター)ログインブレードで確認できます。
  • [Password] (パスワード)は、このクラスターの認証でHDInsightクラスターを作成する時に定義します。

たとえば、ユーザー名に"\"talendstorage\""、パスワードに"my_password"を使用します。

関連するディストリビューションを使用している場合は「はい」になります。

LIVY_HOST

  • Livyの[Hostname] (ホスト名)は、HDInsightクラスターのURLです。このURLは、クラスターの[Overview] (概要)ブレードにあります。https://部分なしでこのURLを入力します。
  • デフォルトの[Port] (ポート)は443です。
  • [Username] (ユーザー名)は、クラスターの作成時に定義されたものです。これは、クラスターの[SSH + Cluster] (SSH + クラスター)ログインブレードで確認できます。
HD Insightによって使用されるLivyサービスの詳細は、Submit Spark jobs using Livyをご覧ください。

関連するディストリビューションHDInsightを使用している場合は「はい」になります。

LIVY_PORT

Livyサービスの ポート番号を入力します。デフォルトでは、ポート番号は"\"443\""です。

関連するディストリビューションHDInsightを使用している場合は「はい」になります。

LIVY_USERNAME

HDinsightユーザー名を入力します。例: "\"my_hdinsight_account\""

関連するディストリビューションHDInsightを使用している場合は「はい」になります。

HDINSIGHT_POLLING_INTERVAL_DURATION

Talend StudioがジョブのステータスをSparkに要求する時間間隔(ミリ秒)を引用符なしで入力します。デフォルトの間隔は30000、つまり30秒です。

いいえ。このパラメーターを指定しない場合、デフォルト値は関連するディストリビューションであるHDInsightで使用されます。

HDINSIGHT_MAX_MISSING_STATUS

ステータスの応答がない場合にTalend Studioがステータス取得のために再試行する最大回数を入力します。デフォルトの再試行回数は10回です。

いいえ。このパラメーターを指定しない場合、デフォルト値は関連するディストリビューションであるHDInsightで使用されます。

WASB_HOST

Windows Azure Storage Blobのアドレスを入力します。例: "\"https://my_storage_account_name.Blob.core.windows.net\""

関連するディストリビューションHDInsightを使用している場合は「はい」になります。

WASB_CONTAINER

使用するコンテナーの名前を入力します。例: "\"talend_container\""

関連するディストリビューションHDInsightを使用している場合は「はい」になります。

REMOTE_FOLDER

このAzure Storageアカウントで現在のジョブとその依存ライブラリーを保存する場所を入力します(例: "\"/user/ychen/deployment_Blob\"")。

関連するディストリビューションHDInsightを使用している場合は「はい」になります。

SPARK_HOST

使用するHadoopクラスターのSparkマスターのURIを入力します。例: "\"spark://localhost:7077\""

Sparkのスタンドアロンモードを使用している場合は「はい」になります。

SPARK_HOME

使用するHadoopクラスターのSpark実行可能ファイルの保存場所を入力します。例: "\"/usr/lib/spark\""

Sparkのスタンドアロンモードを使用している場合は「はい」になります。

DEFINE_HADOOP_HOME_DIR

Windowsから起動する必要がある場合は、使用するwinutils.exeプログラムの保存場所を指定することを推奨します。

winutils.exeファイルのロケーションがわかっており、それを使用する場合は、trueと入力します。それ以外の場合はfalseと入力します。

クラウド上で実行されていないディストリビューションを使用している場合は「はい」になります。

HADOOP_HOME_DIR

winutils.exeが保存されているディレクトリーを入力します。例: "\"C:/Talend/winutils\"".

DEFINE_HADOOP_HOME_DIRtrueを入力した場合は「はい」になります。

DEFINE_SPARK_DRIVER_HOST

SparkのYarnクライアントモードで、ジョブが起動しているマシンをSparkクラスター自らが認識できない場合はtrueと入力します。それ以外の場合はfalseと入力します。

クラウド上で実行されていないディストリビューションを使用しており、SparkモードがYarnクライアントの場合は「はい」になります。

SPARK_DRIVER_HOST

このマシンのホスト名またはIPアドレスを入力します。例: "\"127.0.0.1\"" この設定により、Sparkマスターとそのワーカーはこのマシンを認識して、ジョブとそのドライバーを見つけることができます。

このような場合、このマシンの名前とIPアドレスもそのホストファイルに追加する必要があります。

DEFINE_SPARK_DRIVER_HOSTtrueを入力した場合は「はい」になります。

GOOGLE_PROJECT_ID

Google Cloud PlatformプロジェクトのIDを入力します。

例: "\"my-google-project\""

関連するディストリビューションを使用している場合は「はい」になります。

GOOGLE_CLUSTER_ID

使用するDataprocクラスターのIDを入力します。

例: "\"my-cluster-id\""

関連するディストリビューションを使用している場合は「はい」になります。

GOOGLE_REGION

コンピューティングリソースを使用し、データを保存、処理する地域を入力します。特定のリージョンを指定する必要がない場合は、"\"global\""と入力します。

関連するディストリビューションを使用している場合は「はい」になります。

GOOGLE_JARS_BUCKET

Talendジョブでは、依存jarファイルが実行されることを想定しているため、ジョブが実行時にこれらのjarファイルにアクセスできるように、これらのファイルの転送先にするGoogle Storageディレクトリーを指定します。

入力するディレクトリーの末尾はスラッシュ(/)にする必要があります。ディレクトリーがない場合は即座に作成されますが、使用するバケットはあらかじめ作成しておく必要があります。

例: "\"gs://my-bucket/talend/jars/\""

関連するディストリビューションを使用している場合は「はい」になります。

DEFINE_PATH_TO_GOOGLE_CREDENTIALS

Google Cloud SDKがインストールされ、ユーザーアカウントの認証情報を使用してGoogle Cloud Platformにアクセスする権限があるマシンからジョブを起動する場合は、falseと入力します。この状況では多くの場合、このマシンはお使いのローカルマシンです。

ジョブをTalend JobServerなどのリモートマシンから起動する場合は、trueと入力します。

関連するディストリビューションを使用している場合は「はい」になります。

PATH_TO_GOOGLE_CREDENTIALS

このJSONファイルが保存されているディレクトリーをリモートマシンに入力します。これは以上に多くの場合、ジョブサーバーです。

例: "\"/user/ychen/my_credentials.json\""

DEFINE_PATH_TO_GOOGLE_CREDENTIALStrueを入力した場合は「はい」になります。

ALTUS_SET_CREDENTIALS

ジョブでAltusの認証情報を使用する場合は、trueと入力します。

たとえば、端末で altus configureコマンドを手動で入力して、Altusの認証情報を個別に提供する場合は、falseと入力します。

関連するディストリビューションを使用している場合は「はい」になります。

ALTUS_ACCESS_KEYおよびALTUS_SECRET_KEY

Altusのアクセスキーと、Altusのシークレットキーファイルを参照するディレクトリーを入力します。

例: "\"my_access_key\""および"\"/user/ychen/my_secret_key_file

ALTUS_SET_CREDENTIALStrueを入力した場合は「はい」になります。

ALTUS_CLI_PATH

ジョブが実行されるマシンにインストールし、有効にしたCloudera Altusクライアントへのパスを入力します。本番環境の場合、このマシンは通常、Talend JobServerです。

例: "\"/opt/altuscli/altusclienv/bin/altus\""

関連するディストリビューションを使用している場合は「はい」になります。

ALTUS_REUSE_CLUSTER

Cloudサービスに既に存在するCloudera Altusクラスターを使用する場合は、trueと入力します。それ以外の場合はfalseと入力して、ジョブでクラスターをオンザフライで作成できるようにします。

関連するディストリビューションを使用している場合は「はい」になります。

ALTUS_CLUSTER_NAME

使用するクラスターの名前を入力します。

例: "\"talend-altus-cluster\""

関連するディストリビューションを使用している場合は「はい」になります。

ALTUS_ENVIRONMENT_NAME

特定のクラスターに割り当てたリソースの説明に使用する、Cloudera Altus環境の名前を入力します。

例: "\"talend-altus-cluster\""

関連するディストリビューションを使用している場合は「はい」になります。

ALTUS_CLOUD_PROVIDER

Cloudera Altusクラスターを実行するCloudサービスを入力します。現時点では、AWSのみサポートされています。したがって、"\"AWS\""と入力します。

関連するディストリビューションを使用している場合は「はい」になります。

ALTUS_DELETE_AFTER_EXECUTION

ジョブの実行後に特定のクラスターを削除する場合は、trueと入力します。それ以外の場合はfalseと入力します。

関連するディストリビューションを使用している場合は「はい」になります。

ALTUS_S3_ACCESS_KEYおよびALTUS_S3_SECRET_KEY

使用するAmazon S3バケットへの接続に必要な認証情報を入力します。

ALTUS_CLOUD_PROVIDER"\"AWS\""を入力した場合は「はい」になります。

ALTUS_S3_REGION

使用するAWSリージョンを入力します。例: "\"us-east-1\""

ALTUS_CLOUD_PROVIDER"\"AWS\""を入力した場合は「はい」になります。

ALTUS_BUCKET_NAME

ジョブの依存項目を保存するために使用するバケットの名前を入力します。既存のバケットを用意しておく必要があります。例: "\"my-bucket\""

ALTUS_CLOUD_PROVIDER"\"AWS\""を入力した場合は「はい」になります。

ALTUS_JARS_BUCKET

この特定のバケット内のジョブの依存項目を保存するディレクトリーを入力します。例: "\"altus/jobjar\"" このディレクトリーは、実行時にまだなかった場合は作成されます。

ALTUS_CLOUD_PROVIDER"\"AWS\""を入力した場合は「はい」になります。

ALTUS_USE_CUSTOM_JSON

JSONコードを手動で編集してAltusクラスターを設定する必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。

関連するディストリビューションを使用している場合は「はい」になります。

ALTUS_CUSTOM_JSON

カスタムjsonコードを入力します。例: "{my_json_code}"

ALTUS_USE_CUSTOM_JSONtrueを入力した場合は「はい」になります。

ALTUS_INSTANCE_TYPE

クラスター内のインスタンスのタイプを入力します。このクラスターに展開されたすべてのノードで同じインスタンスタイプが使用されます。例: "\"c4.2xlarge\""

関連するディストリビューションを使用している場合は「はい」になります。

ALTUS_WORKER_NODE

クラスター用に作成するワーカーノードの数を入力します。

例: "\"10\""

関連するディストリビューションを使用している場合は「はい」になります。

ALTUS_CLOUDERA_MANAGER_USERNAME

Coudera Managerサービスの認証情報を入力します。

例: "\"altus\""

関連するディストリビューションを使用している場合は「はい」になります。

SPARK_SCRATCH_DIR

転送するジョブの依存項目などの一時ファイルをローカルシステムに保存するディレクトリーを入力します。例: "\"/tmp\""

はい

STREAMING_BATCH_SIZE

ジョブがソースデータを検証して変更を特定し、新しいマイクロバッチを処理するまでの間隔(ミリ秒)を入力します。例: "1000"

Spark Streamingジョブを開発している場合は「はい」になります。

DEFINE_DURATION

ストリーミングのタイムアウト(ミリ秒)を定義する必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。

Spark Streamingジョブを開発している場合は「はい」になります。

STREAMING_DURATION

ストリーミングジョブが自動的に実行を停止するまでの期間(ミリ秒)を入力します。例: "10000"

DEFINE_DURATIONtrueを入力した場合は「はい」になります。

SPARK_ADVANCED_PROPERTIES

他のHadoopまたはSparkに関連するプロパティを使用するためのコードを入力します。

たとえば、次のような場合があります:
{ PROPERTY : "\"spark.yarn.am.extraJavaOptions\"", VALUE : "\"-Dhdp.version=2.4.0.0-169\"",
                        BUILDIN : "TRUE" }
                     

不可。

セキュリティ設定の定義に関連するプロパティは、次のとおりです。

関数/パラメーター 説明 必須?

USE_KRB

使用するクラスターをKerberosで保護する場合は、trueと入力します。それ以外の場合はfalseと入力します。

はい

RESOURCEMANAGER_PRINCIPAL

ResourceManagerサービスのKerberosプリンシパル名を入力します。例: "\"yarn/_HOST@EXAMPLE.COM\""

KerberosおよびYarnクライアントモードを使用している場合は「はい」になります。

JOBHISTORY_PRINCIPAL

ジョブヒストリーサービスのKerberosプリンシパル名を入力します。例: "\"mapred/_HOST@EXAMPLE.COM\""

KerberosおよびYarnクライアントモードを使用している場合は「はい」になります。

USE_KEYTAB

ログインにKerberos keytabファイルを使用する必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。

Kerberosを使用している場合は「はい」になります。

PRINCIPAL

使用するプリンシパルを入力します。例: "\"hdfs\""

Kerberos keytabファイルを使用している場合は「はい」になります。

KEYTAB_PATH

keytabファイル自体へのアクセスパスを入力します。このキータブファイルは、ジョブが実際に実行されているマシン(Talend JobServerなど)に保存する必要があります。

例: "\"/tmp/hdfs.headless.keytab\""

Kerberos keytabファイルを使用している場合は「はい」になります。

USERNAME

ディストリビューションのログインユーザー名を入力します。空のまま("\"\"")にしておくと、ジョブを実際に実行するマシンのユーザー名が使用されます。

Kerberosを使用していない場合は「はい」になります。

USE_MAPRTICKET

使用するMapRクラスターをMapRチケット認証メカニズムで保護する場合は、trueを入力します。それ以外の場合はfalseと入力します。

MapRクラスターを使用している場合は「はい」になります。

MAPRTICKET_PASSWORD

MapRへのログインに使用するパスワードを入力します。例: "my_password"

Kerberosを使用せず、MapRチケット認証メカニズムを使用している場合は「はい」になります。

MAPRTICKET_CLUSTER

接続先とするMapRクラスターの名前を入力します。例: "\"demo.mapr.com\""

MapRチケット認証メカニズムを使用している場合は「はい」になります。

MAPRTICKET_DURATION

チケットを有効とする期間(秒)を入力します。例: "86400L"

MapRチケット認証メカニズムを使用している場合は「はい」になります。

SET_MAPR_HOME_DIR

MapR設定ファイルのロケーションがクラスター内のどこかに変更されている場合、つまり、MapRホームディレクトリーが変更されている場合は、trueと入力します。それ以外の場合はfalseと入力します。

MapRチケット認証メカニズムを使用している場合は「はい」になります。

MAPR_HOME_DIR

新しいホームディレクトリーを入力します。例: "\"/opt/mapr/custom/\""

SET_MAPR_HOME_DIRtrueを入力した場合は「はい」になります。

SET_HADOOP_LOGIN

使用するログインモジュールがMapRセキュリティ設定ファイルmapr.login.conf内で変更されている場合は、trueと入力します。それ以外の場合はfalseと入力します。

MapRチケット認証メカニズムを使用している場合は「はい」になります。

HADOOP_LOGIN

mapr.login.confファイルから呼び出すモジュールを入力します。たとえば、"\"kerberos\""hadoop_kerberosモジュールを呼び出すことを意味します。

SET_HADOOP_LOGINtrueを入力した場合は「はい」になります。

Sparkのチューニングに関連するプロパティは、次のとおりです。

関数/パラメーター 説明 必須?

ADVANCED_SETTINGS_CHECK

ジョブの実行に使用するリソースの割り当てを最適化する必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。

はい

SPARK_DRIVER_MEMおよびSPARK_DRIVER_CORES

現在のジョブのドライバーが使用するメモリの割り当てサイズとコアの数を入力します。たとえば、メモリは"\"512m\""、コアの数は"\"1\""と入力します。

スタンドアロンモードでSparkのチューニングを行っている場合は「はい」になります。

SPARK_YARN_AM_SETTINGS_CHECK

YarnクラスターのApplicationMasterチューニングプロパティを定義するには、trueと入力します。それ以外の場合はfalseと入力します。

YarnクライアントモードでSparkのチューニングを行っている場合は「はい」になります。

SPARK_YARN_AM_MEMおよびSPARK_YARN_AM_CORES

ApplicationMasterが使用するメモリの割り当てサイズを入力します。たとえば、メモリは"\"512m\""、コアの数は"\"1\""と入力します。

SPARK_YARN_AM_SETTINGS_CHECKtrueを入力した場合は「はい」になります。

SPARK_EXECUTOR_MEM

各Sparkエグゼキューターが使用するメモリの割り当てサイズを入力します。例: "\"512m\""

Sparkのチューニングを行っている場合は「はい」になります。

SET_SPARK_EXECUTOR_MEM_OVERHEAD

エグゼキューターごとにオフヒープメモリ(MB単位)の容量を割り当てる必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。

YarnクライアントモードでSparkのチューニングを行っている場合は「はい」になります。

SPARK_EXECUTOR_MEM_OVERHEAD

エグゼキューターごとに割り当てるオフヒープメモリ(MB単位)の容量を入力します。

SET_SPARK_EXECUTOR_MEM_OVERHEADtrueを入力した場合は「はい」になります。

SPARK_EXECUTOR_CORES_CHECK

各エグゼキューターが使用するコアの数を定義する必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。

Sparkのチューニングを行っている場合は「はい」になります。

SPARK_EXECUTOR_CORES

各エグゼキューターが使用するコアの数を入力します。例: "\"1\""

SPARK_EXECUTOR_CORES_CHECKtrueを入力した場合は「はい」になります。

SPARK_YARN_ALLOC_TYPE

Yarnによるエグゼキューターへのリソースの割り当て方法を選択します。

次の値のいずれか1つを入力します。
  • ["AUTO"] ("自動"): エグゼキューターのデフォルトの数をYarnで使用することを意味します。デフォルト値は2です。
  • FIXED: SPARK_EXECUTOR_INSTANCESで使用するエグゼキューターの数を定義することを意味します。
  • ["DYNAMIC"] ("ダイナミック"): Yarnに負荷に合わせてエグゼキューターの数を調整させることを意味します。次にSPARK_YARN_DYN_INITSPARK_YARN_DYN_MINおよびSPARK_YARN_DYN_MAXを定義する必要があります。

YarnクライアントモードでSparkのチューニングを行っている場合は「はい」になります。

SPARK_EXECUTOR_INSTANCES

Yarnが使用するエグゼキューターの数を入力します。例: "\"2\""

SPARK_YARN_ALLOC_TYPEFIXEDを入力した場合は「はい」になります。

SPARK_YARN_DYN_INIT、SPARK_YARN_DYN_MINおよびSPARK_YARN_DYN_MAX

これら3つのプロパティを定義することで、動的な割り当てのスケールを定義します。たとえば、最初のエグゼキューターの番号を"\"1\""、最小数を"\"0\""、最大数を"\"MAX\""とします。

SPARK_YARN_ALLOC_TYPEDYNAMICを入力した場合は「はい」になります。

WEB_UI_PORT_CHECK

Spark Web UIのデフォルトポートを変更する必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。

Sparkのチューニングを行っている場合は「はい」になります。

WEB_UI_PORT

Spark Web UIに使用するポート番号を入力します。例: "\"4040\""

WEB_UI_PORT_CHECKtrueを入力した場合は「はい」になります。

SPARK_BROADCAST_FACTORY

各ワーカーマシンで変数をキャッシュするために使用するブロードキャスト実装を入力します。

次の値のいずれか1つを入力します。
  • "AUTO"
  • "TORRENT"
  • "HTTP"

Sparkのチューニングを行っている場合は「はい」になります。

CUSTOMIZE_SPARK_SERIALIZER

外部Sparkシリアライザーをインポートする必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。

Sparkのチューニングを行っている場合は「はい」になります。

SPARK_SERIALIZER

使用するシリアライザーの完全修飾クラス名を入力します。例: "\"org.apache.spark.serializer.KryoSerializer\""

CUSTOMIZE_SPARK_SERIALIZERtrueを入力した場合は「はい」になります。

ENABLE_BACKPRESSURE

Sparkのバックプレッシャ機能を有効にする必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。

バックプレッシャー機能はSparkバージョン1.5以上で利用できます。バックプレッシャーを有効にすると、Sparkによって最適な受信速度が自動的に検出され、あくまでも処理可能な速度に合わせてデータを受信できるように、現在のバッチスケジューリングの待機時間と処理時間を基に速度が動的に変更されます。

Spark Streamingジョブ用にSparkのチューニングを行っている場合は「はい」になります。

ジョブ実行のロギングに関連するプロパティは、次のとおりです。

関数/パラメーター 説明 必須?

ENABLE_SPARK_EVENT_LOGGING

Yarnクラスターのファイルシステム内での持続性を保つために、このジョブのSparkアプリケーションログを有効にする必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。

YarnクライアントモードでSparkを使用している場合は「はい」になります。

COMPRESS_SPARK_EVENT_LOGS

ログを圧縮する必要がある場合は、trueと入力します。それ以外の場合はfalseと入力します。

ENABLE_SPARK_EVENT_LOGGINGtrueを入力した場合は「はい」になります。

SPARK_EVENT_LOG_DIR

Sparkイベントがログされているディレクトリーを入力します。例: "\"hdfs://namenode:8020/user/spark/applicationHistory\""

ENABLE_SPARK_EVENT_LOGGINGtrueを入力した場合は「はい」になります。

SPARKHISTORY_ADDRESS

ヒストリーサーバーのロケーションを入力します。例: "\"sparkHistoryServer: 18080\""

ENABLE_SPARK_EVENT_LOGGINGtrueを入力した場合は「はい」になります。

USE_CHECKPOINT

ジョブにエラーリカバリー力が必要な場合は、trueと入力してSparkチェックポイント操作を有効にします。それ以外の場合はfalseと入力します。

はい

CHECKPOINT_DIR

メタデータなどの計算のコンテキストデータ、この計算から生成されたRDDをSparkが保存する、クラスターのファイルシステム内のディレクトリーを入力します。例: "\"file:///tmp/mycheckpoint\""

SET_SPARK_EXECUTOR_MEM_OVERHEADtrueを入力した場合は「はい」になります。

Cloudera Navigatorの設定に関連するプロパティは、次のとおりです。

Apache Spark Batchジョブの実行にCloudera V5.5+を使用している場合は、Cloudera Navigatorを使って特定のデータフローの来歴を追跡し、ジョブによりこのデータフローがどのように生成されたかを調べることができます。

関数/パラメーター 説明 必須?

USE_CLOUDERA_NAVIGATOR

Cloudera Navigatorを使用する場合は、trueと入力します。それ以外の場合はfalseと入力します。

Cloudera上でSparkを使用している場合は「はい」になります。

CLOUDERA_NAVIGATOR_USERNAMEおよびCLOUDERA_NAVIGATOR_PASSWORD

Cloudera Navigatorへの接続に使用する認証情報を入力します。たとえば、ユーザー名に"\"username\""、パスワードに"password"を使用します。

USE_CLOUDERA_NAVIGATORtrueを入力した場合は「はい」になります。

CLOUDERA_NAVIGATOR_URL

Cloudera Navigatorの接続先となるロケーションを入力します。例: "\"http://localhost:7187/api/v8/\""

USE_CLOUDERA_NAVIGATORtrueを入力した場合は「はい」になります。

CLOUDERA_NAVIGATOR_METADATA_URL

Navigator Metadataのロケーションを入力します。例: "\"http://localhost:7187/api/v8/metadata/plugin\""

USE_CLOUDERA_NAVIGATORtrueを入力した場合は「はい」になります。

CLOUDERA_NAVIGATOR_CLIENT_URL

Navigatorクライアントのロケーションを入力します。例: "\"http://localhost\""

USE_CLOUDERA_NAVIGATORtrueを入力した場合は「はい」になります。

CLOUDERA_NAVIGATOR_AUTOCOMMIT

ジョブ実行の最後にCloudera Navigatorが現在のジョブの来歴を生成するように設定するには、trueと入力します。それ以外の場合はfalseと入力します。

USE_CLOUDERA_NAVIGATORtrueを入力した場合は「はい」になります。

CLOUDERA_NAVIGATOR_DISABLE_SSL_VALIDATION

ジョブがCloudera Navigatorに接続した時にSSL検証プロセスを使用しないように設定するには、trueと入力します。それ以外の場合はfalseと入力します。

USE_CLOUDERA_NAVIGATORtrueを入力した場合は「はい」になります。

CLOUDERA_NAVIGATOR_DIE_ON_ERROR

Cloudera Navigatorへの接続が失敗した時にジョブの実行が停止するように設定するには、trueと入力します。それ以外の場合はfalseと入力します。

USE_CLOUDERA_NAVIGATORtrueを入力した場合は「はい」になります。

Hortonworks Atlasの設定に関連するプロパティは、次のとおりです。

Sparkのバッチジョブの実行にHortonworksデータプラットフォームV2.4以上を使用しており、HortonworksクラスターにApache Atlasがインストールされている場合は、Atlasを活用して特定のデータフローの来歴を追跡し、ジョブによりこのデータフローがどのように生成されたかを調べることができます。

関数/パラメーター 説明 必須?

USE_ATLAS

Atlasを使用する場合はtrueと入力します。それ以外の場合はfalseと入力します。

Hortonworks上でSparkを使用している場合は「はい」になります。

ATLAS_USERNAMEおよびATLAS_PASSWORD

Atlasへの接続に使用する認証情報を入力します。たとえば、ユーザー名に"\"username\""、パスワードに"password"を使用します。

USE_ATLAStrueを入力した場合は「はい」になります。

ATLAS_URL

Atlasの接続先となるロケーションを入力します。例: "\"http://localhost:21000\""

USE_ATLAStrueを入力した場合は「はい」になります。

SET_ATLAS_APPLICATION_PROPERTIES

AtlasクラスターにSSLや読み取りタイムアウトなどのカスタムプロパティが含まれている場合は、trueと入力します。それ以外の場合はfalseと入力します。

USE_ATLAStrueを入力した場合は「はい」になります。

ATLAS_APPLICATION_PROPERTIES

ローカルマシンにディレクトリーを入力し、そのディレクトリーにAtlasのatlas-application.propertiesファイルを保存します。例: "\"/user/atlas/atlas-application.properties\""

こうすることでジョブが有効になり、これらのカスタムプロパティを使用できるようになります。

SET_ATLAS_APPLICATION_PROPERTIEStrueを入力した場合は「はい」になります。

ATLAS_DIE_ON_ERROR

Atlasに関連する問題が発生した時にジョブの実行が停止するように設定するには、trueと入力します。それ以外の場合はfalseと入力します。

USE_ATLAStrueを入力した場合は「はい」になります。