目录
spark-submit
spark-submit的用法如下:
spark-submit [options]
参数说明
第一个options表示的是spark-submit的参数
第二个options表示的对应jar或者python入口所需要传入的参数
其中app jar 或者 python file 表示的是对应的jar或者py文件
下面主要介绍spark-submit的参数:
--master MASTER_URL
可以是spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local
--deploy-mode DEPLOY_MODE
Driver程序运行的地方,client或者cluster,默认是client
--class CLASS_NAME
应用程序的主类
--name NAME
应用程序的名称
--jars JARS
逗号分隔的本地jar包,包含在driver和executor的classpath下
--packages
包含在driver和executor的classpath下的jar包逗号分隔的”groupId:artifactId:version”列表
--exclude-packages
用逗号分隔的”groupId:artifactId”列表
--repositories
逗号分隔的远程仓库
--py-files PY_FILES
逗号分隔的”.zip”,”.egg”或者“.py”文件,这些文件放在python app的PYTHONPATH下面
--files FILES
逗号分隔的文件,这些文件放在每个executor的工作目录下面
--conf PROP=VALUE
固定的spark配置属性,默认是conf/spark-defaults.conf
--properties-file FILE
加载额外属性的文件
--driver-memory MEM
Driver内存,默认1G
--driver-java-options
传给driver的额外的Java选项
--driver-library-path
传给driver的额外的库路径
--driver-class-path
传给driver的额外的类路径
--executor-memory MEM
每个executor的内存,默认是1G
--proxy-user NAME
模拟提交应用程序的用户
--driver-cores NUM
Driver的核数,默认是1。这个参数仅仅在standalone集群deploy模式下使用
--supervise Driver
失败时,重启driver。在mesos或者standalone下使用
--verbose
打印debug信息
--total-executor-cores NUM
所有executor总共的核数。仅仅在mesos或者standalone下使用
--executor-core NUM
每个executor的核数。在yarn或者standalone下使用
--driver-cores NUM
Driver的核数,默认是1。在yarn集群模式下使用
--queue QUEUE_NAME
队列名称。在yarn下使用
--num-executors NUM
启动的executor数量。默认为2。在yarn下使用