本文记录了部署Spark的二进制代码的大致步骤,这里使用Spark-3.2.4版本的standalone mode作为例子。

Prerequisite

  1. Java 8 (这里使用1.8.0_361作为参考)
  2. [Optional] Scala 2.12,spark的prebuilt with hadoop的版本一般已经集成了Scala,可以在jars文件夹下找到一些Scala的jar文件
  3. [Optional] Hadoop 2.7,spark的prebuilt with hadoop的版本一般已经集成了Hadoop,如果只使用standalone mode一般不需要额外部署Hadoop。但是如果是集群部署,而且希望Spark对HDFS进行访问,并且高效利用YARN,则建议部署独立的Hadoop,或者用户自己对Hadoop和Spark有版本要求,则建议使用Pre-built with user-provided Apache Hadoop

Install Spark

  1. 下载spark-3.2.4-bin-hadoop2.7,这里选择基于hadoop-2.7的binary版本[也就是编译好的二进制代码]
  2. 解压到想要部署的目录,比如/usr/local/spark/spark-3.2.4-hadoop2.7,并把此路径添加到环境遍历
  3. 配置环境变量到PATH目录,比如export PATH="$SPARK_HOME/sbin:$SPARK_HOME/bin"

Configure Spark

主要的配置文件是conf/spark-env,如果是standalone mode其实也不需要怎么配置就能运行

Run Spark

可以首先使用spark-shell来验证Spark是否成功部署。之后可以使用spark-submit或者其他命令来提交运行job