ジョブスクリプトでスキーマを定義する - 6.5

ジョブスクリプトAPIを使ったSpark接続の設定

author
Talend Documentation Team
EnrichVersion
6.5
EnrichProdName
Talend Big Data
Talend Big Data Platform
Talend Data Fabric
Talend Real-Time Big Data Platform
task
ジョブデザインと開発 > ジョブデザイン > ジョブフレームワーク > Spark Streaming
ジョブデザインと開発 > ジョブデザイン > ジョブフレームワーク > Sparkバッチ
EnrichPlatform
Talend Studio
addParameters{}関数内のaddElementParameters{}関数を使用して、ジョブスクリプト内にSpark接続を定義します。

addElementParameters {}プロパティ

使用するSparkクラスターの選択に関連するプロパティは、次のとおりです。

関数/パラメーター 説明 必須?

SPARK_LOCAL_MODE

Sparkジョブをローカルモードで実行するには、"true"と入力します。デフォルトでは、この値は"false"になっています。すなわち、リモートクラスターを使用する設定です。

利用可

SPARK_LOCAL_VERSION

ローカルモードで使用するSparkのバージョンを入力します。 このプロパティは、 SPARK_LOCAL_MODEに"true"を入力した場合にのみ該当します。

Studioでは、一部のSparkバージョンはローカルモードでの使用がサポートされていません。 次の値のいずれか1つを入力します。
  • "SPARK_1_3_0"

  • "SPARK_1_4_0"

  • "SPARK_1_5_0"

  • "SPARK_1_6_0"

  • "SPARK_2_0_0"

  • "SPARK_2_1_0"

Sparkのローカルモードが使用されている場合は、利用可です。

DISTRIBUTION

お使いのディストリビューションのプロバイダー名を入力して下さい。

ディストリビューションに応じて、次の値のいずれか1つを入力します。
  • "CLOUDERA"

  • "CLOUDERA_ALTUS"

  • "GOOGLE_CLOUD_DATAPROC"

  • "HORTONWORKS"

  • "MAPR"

  • "MICROSOFT_HD_INSIGHT"

SparkのローカルモードもAmazon EMRディストリビューションも使用していない場合は、利用可です。

SPARK_VERSION

お使いのディストリビューションのバージョンを入力します。

次のリストには、利用可能な各ディストリビューションのフォーマット例が一覧表示されています。
  • "Cloudera_CDH12_5"

  • "Cloudera_Altus_CDH5_11"

  • "DATAPROC_1_1"

  • "HDP_2_6"

  • "MAPR600"

  • "MICROSOFT_HD_INSIGHT_3_6"

  • "EMR_5_5_0"

によってサポートされているディストリビューションのバージョンは、Talend JobsでサポートされているHadoopディストリビューションのバージョンを参照して下さい。

関連するディストリビューションを使用している場合は、利用可です。

SUPPORTED_SPARK_VERSION

ディストリビューションで使用しているSparkのバージョンを入力します。例: "SPARK_2_1_0"

関連するディストリビューションを使用している場合は、利用可です。

SPARK_API_VERSION

"SPARK_200"と入力します。これは、で使用されているSpark APIのバージョンです。

利用可。

SET_HDP_VERSION

Hortonworksクラスターがバージョンの保存に hdp.version 変数を使用している場合は、"true"と入力します。それ以外の場合は"false"と入力します。この情報が不明な場合は、クラスターの管理者にお問い合わせ下さい。

Hortonworksを使用している場合は、利用可です。

HDP_VERSION

使用するHortonworkのバージョンを入力します。例: "\"2.6.0.3-8\""この情報が不明な場合は、クラスターの管理者にお問い合わせ下さい。

バージョン番号はクラスターのyarn-site.xmlファイルにも追加する必要があります。この例では、hdp.version=2.6.0.3-8を追加します。

[ SET_HDP_VERSION]に"true"を入力した場合にのみ該当します。

SPARK_MODE

Sparkクラスターが実装されているモードを入力します。

状況に応じて、次の値のいずれか1つを入力します。
  • "CLUSTER": Sparkのスタンドアロンモードで実行することを意味します。

  • "YARN_CLIENT"

Sparkのローカルモードを使用していない場合は、利用可です。

Sparkへの接続設定に関連するプロパティは、次のとおりです。

関数/パラメーター 説明 必須?

RESOURCE_MANAGER

使用するHadoopクラスターのResourceManagerサービスのアドレスを入力します。

Yarnクライアントモードを使用している場合は、利用可です。

SET_SCHEDULER_ADDRESS

クラスターにResourceManager スケジューラーがある場合は"true"と入力します。それ以外の場合は"false"と入力します。

Yarnクライアントモードを使用している場合は、利用可です。

RESOURCEMANAGER_SCHEDULER_ADDRESS

スケジューラーのアドレスを入力します。

[ SET_SCHEDULER_ADDRESS]に"true"を入力した場合にのみ該当します。

SET_JOBHISTORY_ADDRESS

クラスターにジョブヒストリーサービス がある場合は"true"と入力します。それ以外の場合は"false"と入力します。

Yarnクライアントモードを使用している場合は、利用可です。

JOBHISTORY_ADDRESS

使用するHadoopクラスターのジョブヒストリーサーバーの場所を入力します。これにより、現在のジョブのメトリックス情報がそのジョブヒストリーサーバーに保存されます。

[ SET_JOBHISTORY_ADDRESS]に"true"を入力した場合は、利用可です。

SET_STAGING_DIRECTORY

実行中のプログラムによって作成された一時ファイルを保存するステージングディレクトリがクラスターにある場合は"true"と入力します。それ以外の場合は"false"と入力します。

Yarnクライアントモードを使用している場合は、利用可です。

STAGING_DIRECTORY

このディレクトリに、たとえば"\"/user\""と入力します。通常、このディレクトリには yarn.app.mapreduce.am.staging-dir プロパティが設定され、ディストリビューションのyarn-site.xmlmapred-site.xmlなどの構成ファイルに含まれます。

[ SET_STAGING_DIRECTORY]に"true"を入力した場合は、利用可です。

HDINSIGHT_ENDPOINT

HDInsightクラスターのエンドポイントを入力します。 例: "\"https://mycluster.azurehdinsight.net\""

関連するディストリビューションを使用している場合は、利用可です。

HDINSIGHT_USERNAMEおよびHDINSIGHT_PASSWORD

たとえば、ユーザー名に"\"talendstorage\""、パスワードに"my_password"を使用します。

関連するディストリビューションを使用している場合は、利用可です。

LIVY_HOST

関連するディストリビューションHDInsightを使用している場合は、利用可です。

LIVY_PORT

Livyサービスの ポート番号を入力します。デフォルトでは、ポート番号は"\"443\""です。

関連するディストリビューションHDInsightを使用している場合は、利用可です。

LIVY_USERNAME

HDinsightユーザー名を入力します。例: "\"my_hdinsight_account\""

関連するディストリビューションHDInsightを使用している場合は、利用可です。

WASB_HOST

Windows Azure Storage Blobのアドレスを入力します。例: "\"https://my_storage_account_name.blob.core.windows.net\""

関連するディストリビューションHDInsightを使用している場合は、利用可です。

WASB_CONTAINER

使用するコンテナの名前を入力します。例: "\"talend_container\""

関連するディストリビューションHDInsightを使用している場合は、利用可です。

REMOTE_FOLDER

このAzure Storageアカウントで現在のジョブとその依存ライブラリを保存する場所を入力します。例: "\"/user/ychen/deployment_blob\""

関連するディストリビューションHDInsightを使用している場合は、利用可です。

SPARK_HOST

使用するHadoopクラスターのSparkマスターのURIを入力します。例: "\"spark://localhost:7077\""

Sparkのスタンドアロンモードを使用している場合は、利用可です。

SPARK_HOME

使用するHadoopクラスターのSparkマスターのURIを入力します。例: "\"/usr/lib/spark\""

Sparkのスタンドアロンモードを使用している場合は、利用可です。

DEFINE_HADOOP_HOME_DIR

winutils.exeファイルの場所がわかっており、それを使用する場合は、"true"と入力します。それ以外の場合は"false"と入力します。

クラウド上で実行されていないディストリビューションを使用している場合は、利用可です。

HADOOP_HOME_DIR

winutils.exeが保存されているディレクトリを入力します。例: "\"C:/Talend/winutils\""

[ DEFINE_HADOOP_HOME_DIR]に"true"を入力した場合は、利用可です。

DEFINE_SPARK_DRIVER_HOST

SparkのYarnクライアントモードで、ジョブが起動しているマシンをSparkクラスター自らが認識できない場合は"true"と入力します。それ以外の場合は"false"と入力します。

クラウド上で実行されていないディストリビューションを使用しており、SparkモードがYarnクライアントの場合は、利用可です。

SPARK_DRIVER_HOST

このマシンのホスト名またはIPアドレスを入力します。例: "\"127.0.0.1\""この設定により、Sparkマスターとそのワーカーはこのマシンを認識して、ジョブとそのドライバーを見つけることができます。

[ DEFINE_SPARK_DRIVER_HOST]に"true"を入力した場合は、利用可です。

GOOGLE_PROJECT_ID

例: "\"my-google-project\""

関連するディストリビューションを使用している場合は、利用可です。

GOOGLE_CLUSTER_ID

例: "\"my-cluster-id\""

関連するディストリビューションを使用している場合は、利用可です。

GOOGLE_REGION

計算リソースが使用され、データが保存/処理される地理的ゾーンを入力します。特定のリージョンを指定する必要がない場合は、"\"global\""と入力します。

関連するディストリビューションを使用している場合は、利用可です。

GOOGLE_JARS_BUCKET

例: "\"gs://my-bucket/talend/jars/\""

関連するディストリビューションを使用している場合は、利用可です。

DEFINE_PATH_TO_GOOGLE_CREDENTIALS

Google Cloud SDKがインストールされ、ユーザーアカウントのクレデンシャルを使用してGoogle Cloud Platformにアクセスする権限があるマシンからジョブを起動する場合は、"false"と入力します。この状況では多くの場合、このマシンはお使いのローカルマシンです。

ジョブをジョブサーバーなどのリモートマシンから起動する場合は、"true"と入力します。

関連するディストリビューションを使用している場合は、利用可です。

PATH_TO_GOOGLE_CREDENTIALS

このJSONファイルが保存されているディレクトリをリモートマシンに入力します。これは以上に多くの場合、ジョブサーバーです。

例: "\"/user/ychen/my_credentials.json\""

[ DEFINE_PATH_TO_GOOGLE_CREDENTIALS]に"true"を入力した場合は、利用可です。

ALTUS_SET_CREDENTIALS

ジョブにAltusのクレデンシャルを使用する場合は、"true"と入力します。

たとえば、端末でaltus configureコマンドを手動で入力して、Altusのクレデンシャルを個別に提供する場合は、"false"と入力します。

関連するディストリビューションを使用している場合は、利用可です。

ALTUS_ACCESS_KEYおよびALTUS_SECRET_KEY

Altusのアクセスキーと、Altusの秘密キーファイルを参照するディレクトリを入力します。

例: "\"my_access_key\""および"\"/user/ychen/my_secret_key_file

[ ALTUS_SET_CREDENTIALS]に"true"を入力した場合は、利用可です。

ALTUS_CLI_PATH

例: "\"/opt/altuscli/altusclienv/bin/altus\""

関連するディストリビューションを使用している場合は、利用可です。

ALTUS_REUSE_CLUSTER

Cloudサービス内に既に存在するCloudera Altusクラスターを使用する場合は、"true"と入力します。それ以外の場合は"false"と入力して、ジョブがクラスターをオンザフライで作成できるようにします。

関連するディストリビューションを使用している場合は、利用可です。

ALTUS_CLUSTER_NAME

例: "\"talend-altus-cluster\""

関連するディストリビューションを使用している場合は、利用可です。

ALTUS_ENVIRONMENT_NAME

例: "\"talend-altus-cluster\""

関連するディストリビューションを使用している場合は、利用可です。

ALTUS_CLOUD_PROVIDER

Cloudera Altusクラスターを実行するCloudサービスを入力します。現時点では、AWSのみサポートされています。したがって、"\"AWS\""と入力します。

関連するディストリビューションを使用している場合は、利用可です。

ALTUS_DELETE_AFTER_EXECUTION

ジョブの実行後に特定のクラスターを削除する場合は、"true"と入力します。それ以外の場合は"false"と入力します。

関連するディストリビューションを使用している場合は、利用可です。

ALTUS_S3_ACCESS_KEYおよびALTUS_S3_SECRET_KEY

使用するAmazon S3バケットへの接続に必要な認証情報を入力します。

[ ALTUS_CLOUD_PROVIDER]に"\"AWS\""を入力した場合は、利用可です。

ALTUS_S3_REGION

使用するAWSリージョンを入力します。例: "\"us-east-1\""

[ ALTUS_CLOUD_PROVIDER]に"\"AWS\""を入力した場合は、利用可です。

ALTUS_BUCKET_NAME

ジョブの依存性を保存するために使用するバケットの名前を入力します。既存のバケットを用意しておく必要があります。例: "\"my-bucket\""

[ ALTUS_CLOUD_PROVIDER]に"\"AWS\""を入力した場合は、利用可です。

ALTUS_JARS_BUCKET

この特定のバケット内のジョブの依存性を保存するディレクトリを入力します。例: "\"altus/jobjar\""このディレクトリは、ランタイム時にまだなかった場合は作成されます。

[ ALTUS_CLOUD_PROVIDER]に"\"AWS\""を入力した場合は、利用可です。

ALTUS_USE_CUSTOM_JSON

JSONコードを手動で編集してAltusクラスターを設定する必要がある場合は、"true"と入力します。それ以外の場合は"false"と入力します。

関連するディストリビューションを使用している場合は、利用可です。

ALTUS_CUSTOM_JSON

カスタムjsonコードを入力します。例: "{my_json_code}"

[ ALTUS_USE_CUSTOM_JSON]に"true"を入力した場合は、利用可です。

ALTUS_INSTANCE_TYPE

クラスター内のインスタンスのタイプを入力します。このクラスターに展開されたすべてのノードで同じインスタンスタイプが使用されます。例: "\"c4.2xlarge\""

関連するディストリビューションを使用している場合は、利用可です。

ALTUS_WORKER_NODE

例: "\"10\""

関連するディストリビューションを使用している場合は、利用可です。

ALTUS_CLOUDERA_MANAGER_USERNAME

例: "\"altus\""

関連するディストリビューションを使用している場合は、利用可です。

SPARK_SCRATCH_DIR

転送するジョブの依存性などの一時ファイルをローカルシステムに保存するディレクトリを入力します。例: "\"/tmp\""

利用可。

STREAMING_BATCH_SIZE

ジョブがソースデータを検証して変更を特定し、新しいマイクロバッチを処理するまでの間隔(ミリ秒)を入力します。例: "1000"

Sparkストリーミングジョブを開発している場合は、利用可です。

DEFINE_DURATION

ストリーミングのタイムアウト(ミリ秒)を定義する必要がある場合は、"true"と入力します。それ以外の場合は"false"と入力します。

Sparkストリーミングジョブを開発している場合は、利用可です。

STREAMING_DURATION

ストリーミングジョブが自動的に実行を停止するまでの期間(ミリ秒)を入力します。例: "10000"

[ DEFINE_DURATION]に"true"を入力した場合は、利用可です。

SPARK_ADVANCED_PROPERTIES

他のHadoopまたはSparkに関連するプロパティを使用するためのコードを入力します。

例:
{
PROPERTY : "\"spark.yarn.am.extraJavaOptions\"",
VALUE : "\"-Dhdp.version=2.4.0.0-169\"",
BUILDIN : "TRUE"
}

不可。

セキュリティ設定の定義に関連するプロパティは、次のとおりです。

関数/パラメーター 説明 必須?

USE_KRB

使用するクラスターをKerberosで保護する場合は、"true"と入力します。それ以外の場合は"false"と入力します。

がKerberosのサポートを提供しているディストリビューションのバージョンは、Talend JobsでサポートされているHadoopディストリビューションのバージョンを参照して下さい。

利用可

RESOURCEMANAGER_PRINCIPAL

ResourceManagerサービスのKerberosプリンシパル名を入力します。例: "\"yarn/_HOST@EXAMPLE.COM\""

KerberosおよびYarnクライアントモードを使用している場合は、利用可です。

JOBHISTORY_PRINCIPAL

ジョブヒストリーサービスのKerberosプリンシパル名を入力します。例: "\"mapred/_HOST@EXAMPLE.COM\""

KerberosおよびYarnクライアントモードを使用している場合は、利用可です。

USE_KEYTAB

ログインにKerberos keytabファイルを使用する必要がある場合は、"true"と入力します。それ以外の場合は"false"と入力します。

Kerberosを使用している場合は、利用可です。

PRINCIPAL

使用するプリンシパルを入力します。例: "\"hdfs\""

Kerberos keytabファイルを使用している場合は、利用可です。

KEYTAB_PATH

keytabファイル自体へのアクセスパスを入力します。このkeytabファイルは、ジョブが実際に実行されているマシン、たとえば、 Jobserverに保存する必要があります。

例: "\"/tmp/hdfs.headless.keytab\""

Kerberos keytabファイルを使用している場合は、利用可です。

USERNAME

ディストリビューションのログインユーザー名を入力します。空のまま("\"\"")にしておくと、ジョブを実際に実行するマシンのユーザー名が使用されます。

Kerberosを使用していない場合は、利用可です。

USE_MAPRTICKET

使用するMapRクラスターをMapRチケット認証メカニズムで保護する場合は、"true"を入力します。それ以外の場合は"false"と入力します。

MapRクラスターを使用している場合は、利用可です。

MAPRTICKET_PASSWORD

MapRへのログインに使用するパスワードを入力します。例: "my_password"

Kerberosを使用せず、MapRチケット認証メカニズムを使用している場合は、利用可です。

MAPRTICKET_CLUSTER

接続先とするMapRクラスターの名前を入力します。例: "\"demo.mapr.com\""

MapRチケット認証メカニズムを使用している場合は、利用可です。

MAPRTICKET_DURATION

チケットを有効とする期間(秒)を入力します。例: "86400L"

MapRチケット認証メカニズムを使用している場合は、利用可です。

SET_MAPR_HOME_DIR

MapR構成ファイルの場所がクラスター内のどこかに変更されている場合、つまり、MapRホームディレクトリが変更されている場合は、"true"と入力します。それ以外の場合は"false"と入力します。

MapRチケット認証メカニズムを使用している場合は、利用可です。

MAPR_HOME_DIR

新しいホームディレクトリを入力します。例: "\"/opt/mapr/custom/\""

[ SET_MAPR_HOME_DIR]に"true"を入力した場合は、利用可です。

SET_HADOOP_LOGIN

使用するログインモジュールがMapRセキュリティ設定ファイル(mapr.login.conf)内で変更されている場合は、"true"と入力します。それ以外の場合は"false"と入力します。

MapRチケット認証メカニズムを使用している場合は、利用可です。

HADOOP_LOGIN

mapr.login.confファイルから呼び出すモジュールを入力します。たとえば、"\"kerberos\""hadoop_kerberos モジュールを呼び出すことを意味します。

[ SET_HADOOP_LOGIN]に"true"を入力した場合は、利用可です。

Sparkのチューニングに関連するプロパティは、次のとおりです。

関数/パラメーター 説明 必須?

ADVANCED_SETTINGS_CHECK

ジョブの実行に使用するリソースの割り当てを最適化する必要がある場合は、"true"と入力します。それ以外の場合は"false"と入力します。

利用可。

SPARK_DRIVER_MEMおよびSPARK_DRIVER_CORES

現在のジョブのドライバーが使用するメモリの割り当てサイズとコアの数を入力します。たとえば、メモリは"\"512m\""、コアの数は"\"1\""と入力します。

スタンドアロンモードでSparkのチューニングを行っている場合は、利用可です。

SPARK_YARN_AM_SETTINGS_CHECK

YarnクラスターのApplicationMasterチューニングプロパティを定義するには、"true"と入力します。それ以外の場合は"false"と入力します。

YarnクライアントモードでSparkのチューニングを行っている場合は、利用可です。

SPARK_YARN_AM_MEMおよびSPARK_YARN_AM_CORES

ApplicationMasterが使用するメモリの割り当てサイズを入力します。たとえば、メモリは"\"512m\""、コアの数は"\"1\""と入力します。

[ SPARK_YARN_AM_SETTINGS_CHECK]に"true"を入力した場合は、利用可です。

SPARK_EXECUTOR_MEM

各Sparkエグゼキューターが使用するメモリの割り当てサイズを入力します。例: "\"512m\""

Sparkのチューニングを行っている場合は、利用可です。

SET_SPARK_EXECUTOR_MEM_OVERHEAD

エグゼキューターごとにオフヒープメモリ(MB単位)の容量を割り当てる必要がある場合は、"true"と入力します。それ以外の場合は"false"と入力します。

YarnクライアントモードでSparkのチューニングを行っている場合は、利用可です。

SPARK_EXECUTOR_MEM_OVERHEAD

エグゼキューターごとに割り当てるオフヒープメモリ(MB単位)の容量を入力します。

[ SET_SPARK_EXECUTOR_MEM_OVERHEAD]に"true"を入力した場合は、利用可です。

SPARK_EXECUTOR_CORES_CHECK

各エグゼキューターが使用するコアの数を定義する必要がある場合は、"true"と入力します。それ以外の場合は"false"と入力します。

Sparkのチューニングを行っている場合は、利用可です。

SPARK_EXECUTOR_CORES

各エグゼキューターが使用するコアの数を入力します。例: "\"1\""

[ SPARK_EXECUTOR_CORES_CHECK]に"true"を入力した場合は、利用可です。

SPARK_YARN_ALLOC_TYPE

Yarnによるエグゼキューターへのリソースの割り当て方法を選択します。

次の値のいずれか1つを入力します。
  • "AUTO" (自動): エグゼキューターのデフォルトの数をYarnで使用することを意味します。デフォルト値は2です。

  • "FIXED" (固定): [ SPARK_EXECUTOR_INSTANCES]で使用するエグゼキューターの数を定義することを意味します。

  • "DYNAMIC" (ダイナミック): Yarnに負荷に合わせてエグゼキューターの数を調整させることを意味します。この場合、[ SPARK_YARN_DYN_INIT]、[ SPARK_YARN_DYN_MIN ]および[ SPARK_YARN_DYN_MAX]を定義する必要があります。

YarnクライアントモードでSparkのチューニングを行っている場合は、利用可です。

SPARK_EXECUTOR_INSTANCES

Yarnが使用するエグゼキューターの数を入力します。例: "\"2\""

[ SPARK_YARN_ALLOC_TYPE]に"FIXED"を入力した場合は、利用可です。

SPARK_YARN_DYN_INIT、SPARK_YARN_DYN_MINおよびSPARK_YARN_DYN_MAX

これら3つのプロパティを定義することで、動的な割り当てのスケールを定義します。たとえば、最初のエグゼキューターの番号を"\"1\""、最小数を"\"0\""、最大数を"\"MAX\""とします。

[ SPARK_YARN_ALLOC_TYPE]に"DYNAMIC"を入力した場合は、利用可です。

WEB_UI_PORT_CHECK

Spark Web UIのデフォルトポートを変更する必要がある場合は、"true"と入力します。それ以外の場合は"false"と入力します。

Sparkのチューニングを行っている場合は、利用可です。

WEB_UI_PORT

Spark Web UIに使用するポート番号を入力します。例: "\"4040\""

[ WEB_UI_PORT_CHECK]に"true"を入力した場合は、利用可です。

SPARK_BROADCAST_FACTORY

各ワーカーマシンで変数をキャッシュするために使用するブロードキャスト実装を入力します。

次の値のいずれか1つを入力します。
  • "AUTO"

  • "TORRENT"

  • "HTTP"

Sparkのチューニングを行っている場合は、利用可です。

CUSTOMIZE_SPARK_SERIALIZER

外部Sparkシリアライザーをインポートする必要がある場合は、"true"と入力します。それ以外の場合は"false"と入力します。

Sparkのチューニングを行っている場合は、利用可です。

SPARK_SERIALIZER

使用するシリアライザーの完全修飾クラス名を入力します。例: "\"org.apache.spark.serializer.KryoSerializer\""

[ CUSTOMIZE_SPARK_SERIALIZER]に"true"を入力した場合は、利用可です。

ENABLE_BACKPRESSURE

Sparkのバックプレッシャフィーチャーを有効にする必要がある場合は、"true"と入力します。それ以外の場合は"false"と入力します。

バックプレッシャフィーチャーは、Sparkバージョン1.5以上で使用できます。バックプレッシャを有効にすると、Sparkによって最適な受信速度が自動的に検出され、あくまでも処理可能な速度に合わせてデータを受信できるように、現在のバッチスケジューリングの待機時間と処理時間を基に速度が動的に変更されます。

Sparkストリーミングジョブ用にSparkのチューニングを行っている場合は、利用可です。

ジョブ実行のロギングに関連するプロパティは、次のとおりです。

関数/パラメーター 説明 必須?

ENABLE_SPARK_EVENT_LOGGING

Yarnクラスターのファイルシステム内での持続性を保つために、このジョブのSparkアプリケーションログを有効にする必要がある場合は、"true"と入力します。それ以外の場合は"false"と入力します。

YarnクライアントモードでSparkを使用している場合は、利用可です。

COMPRESS_SPARK_EVENT_LOGS

ログを圧縮する必要がある場合は、"true"と入力します。それ以外の場合は"false"と入力します。

[ ENABLE_SPARK_EVENT_LOGGING]に"true"を入力した場合は、利用可です。

SPARK_EVENT_LOG_DIR

Sparkイベントがログされているディレクトリを入力します。例: "\"hdfs://namenode:8020/user/spark/applicationHistory\""

[ ENABLE_SPARK_EVENT_LOGGING]に"true"を入力した場合は、利用可です。

SPARKHISTORY_ADDRESS

ヒストリーサーバーのロケーションを入力します。例: "\"sparkHistoryServer:18080\""

[ ENABLE_SPARK_EVENT_LOGGING]に"true"を入力した場合は、利用可です。

USE_CHECKPOINT

ジョブにエラー回復力が必要な場合は、"true"と入力してSparkチェックポイント操作を有効にします。 それ以外の場合は"false"と入力します。

利用可。

CHECKPOINT_DIR

メタデータなどの計算のコンテキストデータ、この計算から生成されたRDDをSparkが保存する、クラスターのファイルシステム内のディレクトリを入力します。例: "\"file:///tmp/mycheckpoint\""

[ SET_SPARK_EXECUTOR_MEM_OVERHEAD]に"true"を入力した場合は、利用可です。

Cloudera Navigatorの設定に関連するプロパティは、次のとおりです。

MapReduceまたはApache Sparkのバッチジョブの実行にCloudera V5.5+を使用している場合は、Cloudera Navigatorを活用して特定のデータフローの来歴を追跡し、ジョブによりこのデータフローがどのように生成されたかを調べることができます。

によってサポートされているCloudera Navigatorのバージョンは、Talend JobsでサポートされているHadoopディストリビューションのバージョンを参照して下さい。

関数/パラメーター 説明 必須?

USE_CLOUDERA_NAVIGATOR

Cloudera Navigatorを使用する場合は、"true"と入力します。それ以外の場合は"false"と入力します。

Cloudera上でSparkを使用している場合は、利用可です。

CLOUDERA_NAVIGATOR_USERNAMEおよびCLOUDERA_NAVIGATOR_PASSWORD

Cloudera Navigatorへの接続に使用するクレデンシャルを入力します。たとえば、ユーザー名に"\"username\""、パスワードに"password"を使用します。

[ USE_CLOUDERA_NAVIGATOR]に"true"を入力した場合は、利用可です。

CLOUDERA_NAVIGATOR_URL

Cloudera Navigatorの接続先となるロケーションを入力します。例: "\"http://localhost:7187/api/v8/\""

[ USE_CLOUDERA_NAVIGATOR]に"true"を入力した場合は、利用可です。

CLOUDERA_NAVIGATOR_METADATA_URL

Navigator Metadataのロケーションを入力します。例: "\"http://localhost:7187/api/v8/metadata/plugin\""

[ USE_CLOUDERA_NAVIGATOR]に"true"を入力した場合は、利用可です。

CLOUDERA_NAVIGATOR_CLIENT_URL

Navigatorクライアントのロケーションを入力します。例: "\"http://localhost\""

[ USE_CLOUDERA_NAVIGATOR]に"true"を入力した場合は、利用可です。

CLOUDERA_NAVIGATOR_AUTOCOMMIT

ジョブ実行の最後にCloudera Navigatorが現在のジョブの来歴を生成するように設定するには、"true"と入力します。それ以外の場合は"false"と入力します。

[ USE_CLOUDERA_NAVIGATOR]に"true"を入力した場合は、利用可です。

CLOUDERA_NAVIGATOR_DISABLE_SSL_VALIDATION

ジョブがCloudera Navigatorに接続したときにSSL検証プロセスを使用しないように設定するには、"true"と入力します。それ以外の場合は"false"と入力します。

[ USE_CLOUDERA_NAVIGATOR]に"true"を入力した場合は、利用可です。

CLOUDERA_NAVIGATOR_DIE_ON_ERROR

Cloudera Navigatorへの接続が失敗したときにジョブの実行が停止するように設定するには、"true"と入力します。それ以外の場合は"false"と入力します。

[ USE_CLOUDERA_NAVIGATOR]に"true"を入力した場合は、利用可です。

Hortonworks Atlasの設定に関連するプロパティは、次のとおりです。

Sparkのバッチジョブの実行にHortonworksデータプラットフォームV2.4以上を使用しており、HortonworksクラスターにApache Atlasがインストールされている場合は、Atlasを活用して特定のデータフローの来歴を追跡し、ジョブによりこのデータがどのように生成されたかを調べることができます。

関数/パラメーター 説明 必須?

USE_ATLAS

Atlasを使用する場合は"true"と入力します。それ以外の場合は"false"と入力します。

Hortonworks上でSparkを使用している場合は、利用可です。

ATLAS_USERNAMEおよびATLAS_PASSWORD

Atlasへの接続に使用するクレデンシャルを入力します。たとえば、ユーザー名に"\"username\""、パスワードに"password"を使用します。

[ USE_ATLAS]に"true"を入力した場合は、利用可です。

ATLAS_URL

Atlasの接続先となるロケーションを入力します。例: "\"http://localhost:21000\""

[ USE_ATLAS]に"true"を入力した場合は、利用可です。

SET_ATLAS_APPLICATION_PROPERTIES

AtlasクラスターにSSLや読み取りタイムアウトなどのカスタムプロパティが含まれている場合は、"true"と入力します。それ以外の場合は"false"と入力します。

[ USE_ATLAS]に"true"を入力した場合は、利用可です。

ATLAS_APPLICATION_PROPERTIES

ローカルマシンにディレクトリを入力し、そのディレクトリにAtlasのatlas-application.propertiesファイルを保存します。例: "\"/user/atlas/atlas-application.properties\""

こうすることでジョブが有効になり、これらのカスタムプロパティを使用できるようになります。

[ SET_ATLAS_APPLICATION_PROPERTIES]に"true"を入力した場合は、利用可です。

ATLAS_DIE_ON_ERROR

Atlasに関連する問題が発生したときにジョブの実行が停止するように設定するには、"true"と入力します。それ以外の場合は"false"と入力します。

[ USE_ATLAS]に"true"を入力した場合は、利用可です。