Spark Deployment [部署Spark]
Published: Aug. 16, 2023
本文记录了部署Spark的二进制代码的大致步骤,这里使用Spark-3.2.4版本的standalone mode
作为例子。
Prerequisite
- Java 8 (这里使用1.8.0_361作为参考)
- [Optional] Scala 2.12,spark的
prebuilt with hadoop
的版本一般已经集成了Scala,可以在jars
文件夹下找到一些Scala的jar文件 - [Optional] Hadoop 2.7,spark的
prebuilt with hadoop
的版本一般已经集成了Hadoop,如果只使用standalone mode
一般不需要额外部署Hadoop。但是如果是集群部署,而且希望Spark对HDFS进行访问,并且高效利用YARN,则建议部署独立的Hadoop,或者用户自己对Hadoop和Spark有版本要求,则建议使用Pre-built with user-provided Apache Hadoop
Install Spark
- 下载spark-3.2.4-bin-hadoop2.7,这里选择基于
hadoop-2.7
的binary版本[也就是编译好的二进制代码] - 解压到想要部署的目录,比如
/usr/local/spark/spark-3.2.4-hadoop2.7
,并把此路径添加到环境遍历 - 配置环境变量到
PATH
目录,比如export PATH="$SPARK_HOME/sbin:$SPARK_HOME/bin"
Configure Spark
主要的配置文件是conf/spark-env
,如果是standalone mode
其实也不需要怎么配置就能运行
Run Spark
可以首先使用spark-shell
来验证Spark是否成功部署。之后可以使用spark-submit
或者其他命令来提交运行job