目录

spark-submit

spark-submit的用法如下: spark-submit [options] [app options]


参数说明

第一个options表示的是spark-submit的参数
第二个options表示的对应jar或者python入口所需要传入的参数
其中app jar 或者 python file 表示的是对应的jar或者py文件

下面主要介绍spark-submit的参数:

--master MASTER_URL

可以是spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local

--deploy-mode DEPLOY_MODE

Driver程序运行的地方,client或者cluster,默认是client

--class CLASS_NAME

应用程序的主类

--name NAME

应用程序的名称

--jars JARS

逗号分隔的本地jar包,包含在driver和executor的classpath下

--packages

包含在driver和executor的classpath下的jar包逗号分隔的”groupId:artifactId:version”列表

--exclude-packages

用逗号分隔的”groupId:artifactId”列表

--repositories

逗号分隔的远程仓库

--py-files PY_FILES

逗号分隔的”.zip”,”.egg”或者“.py”文件,这些文件放在python app的PYTHONPATH下面

--files FILES

逗号分隔的文件,这些文件放在每个executor的工作目录下面

--conf PROP=VALUE

固定的spark配置属性,默认是conf/spark-defaults.conf

--properties-file FILE

加载额外属性的文件

--driver-memory MEM

Driver内存,默认1G

--driver-java-options

传给driver的额外的Java选项

--driver-library-path

传给driver的额外的库路径

--driver-class-path

传给driver的额外的类路径

--executor-memory MEM

每个executor的内存,默认是1G

--proxy-user NAME

模拟提交应用程序的用户

--driver-cores NUM

Driver的核数,默认是1。这个参数仅仅在standalone集群deploy模式下使用

--supervise Driver

失败时,重启driver。在mesos或者standalone下使用

--verbose

打印debug信息

--total-executor-cores NUM

所有executor总共的核数。仅仅在mesos或者standalone下使用

--executor-core NUM

每个executor的核数。在yarn或者standalone下使用

--driver-cores NUM

Driver的核数,默认是1。在yarn集群模式下使用

--queue QUEUE_NAME

队列名称。在yarn下使用

--num-executors NUM

启动的executor数量。默认为2。在yarn下使用