Spark实践笔记3:Spark集群搭建

scala的安装

  1. 下载安装包:我选择2.11.6版本

  2. 上传到ubuntu1中并解压,配置环境变量,增加SCALA_HOME,并在PATH里增加对应BIN

1
2
3
4
5
6
7
8
9
10
11
12
13
14
tar xvf scala-2.11.6.tar -C /usr/local
cd /usr/local
mv scala-2.11.6 scala
vim ~/.bashrc
export SCALA_HOME=/usr/local/scala
path里增加 $ {SCALA_HOME} /bin
source ~/.bashrc
  1. 把scala拷贝到其他两台机器,并配置环境变量
1
2
3
4
scp -r scala ubuntu2:/usr/local
scp -r scala ubuntu3:/usr/local
  1. 验证scala安装成功
1
2
scala -version

spark安装

  1. 下载安装包:我选择1.3.1版本

  2. 上传到ubuntu1中并解压,配置环境变量,增加SPARK_HOME,并在PATH里增加对应BIN。使用source命令使配置生效

1
2
3
4
tar xzvf spark-1.3.1-bin-hadoop2.6.tgz -C /usr/local
mv spark-1.3.1-bin-hadoop2.6 spark
  1. 修改配置文件:slaves,spark-env.sh
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
vim $SPARK_HOME/conf/slaves
文件内容
ubuntu2
ubuntu3
cp spark-env.sh.template spark-env.sh`
vim $SPARK_HOME/conf/spark-env.sh`
文件内容
export JAVA_HOME=/usr/lib/jvm/java
export SCALA_HOME=/usr/local/scala
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.0
export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-2.7.0/etc/hadoop
export SPARK_MASTER_ID=ubuntu1
export SPARK_WORKER_MEMORY=1g
  1. 使用SCP命令拷贝到其他两台机器,并做同样的环境变量配置,source生效
1
2
3
4
scp -r /usr/local/spark ubuntu2:/usr/local
scp -r /usr/local/spark ubuntu3:/usr/local
  1. 启动SPARK,jps后在ubuntu1上会出现master进程,在ubuntu2、ubuntu3会出现worker进程。可以访问web界面
1
2
3
4
cd ${SPARK_HOME}/sbin
./start-all.s
  1. 进入spark-shell控制台,命令执行成功后还可以通过web查看jobs状况。
1
2
3
4
5
6
cd ${SPARK_HOME}/bin
spark-shell
master=spark://ubuntu1:7077 ./spark-shell