Spark每一個版本的編譯要求都不一樣,請大家仔細看官網說明。我們以Spark2.0的編譯和安裝做詳細步驟說明。
第一步:看官網
“Building Spark using Maven requires Maven 3.3.9 or newer and Java 7+”,這是官網的特別說明,Spark2.0的編譯必須基於Maven3.3.9和JDK1.7以上的版本。
第二步:下載Spark2.0源碼
第三步:解壓Spark源碼包
$ tar -zxf spark-2.0.0.tgz -C /opt/modules
第四步:下載安裝Maven
注意Maven的版本,http://maven.apache.org/download.cgi這是下載地址。
$ tar -zxf apache-maven-3.3.9-bin.tar.gz -C /opt/modules
第五步:Maven環境變量配置
在/etc/profile中添加如下的內容:
#MAVEN_HOME
export MAVEN_HOME=/opt/modules/apache-maven-3.3.9
export PATH=$PATH:$MAVEN_HOME/bin
export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=1024M -XX:ReservedCodeCacheSize=1024m"
第六步:驗證Maven環境
$ mvn -version
第七步:配置DNS
在/etc/resolv.conf文件中添加如下的內容 :
nameserver 8.8.8.8
nameserver 8.8.4.4
第八步:設置預編譯版本號
編輯/opt/modules/spark2.0.0/dev/make-distribution.sh文件,編輯內容如下:
VERSION=2.0.0
SCALA_VERSION=2.10.4
SPARK_HADOOP_VERSION=2.5.0
SPARK_HIVE=1
保存文件。
為什麼要編輯這個文件,其實不編輯也可以執行,只是我們設置了,讓編譯跑的更快些。
第九步:開始編譯Spark2.0
$cd /opt/modules/spark-2.0.0/dev/
$./make-distribution.sh --tgz -Pyarn -Phadoop-2.4 -Dhadoop.version=2.5.0 -Phive -Phive-thriftserver -Phive-0.13.1
經過漫長的等待,如果出現如下圖的日誌信息,那就恭喜你,Spark2.0的編譯就完成了。
編譯完成之後,會在Spark2.0根目錄下生成一個編譯完成的spark-2.0.0-bin-2.5.0.tgz包,這是我針對hadoop2.5.0編譯的spark2.0.0版本。
第十步:安裝scala
下載scala2.10.4版本,這個版本號跟之前spark2.0編譯設置的scala版本必須一致。
$tar -zxf /opt/softwares/scala-2.10.4.tgz -C /opt/modules/
第十一步:配置scala
在/etc/profiles文件中添加如下的內容:
第十二步:安裝Spark2.0
將已經編譯好的spark2.0包解壓到/opt/modules下
$tar -zxf /opt/softwares/spark-2.0.0-bin-2.5.0.tgz -C /opt/modules/
第十三步:啟動Spark2.0
$ bin/spark-shell
第十四步:WEB UI監控
默認端口號是4040:
地址:bigdata-senior01-kfk.com:4040
至此,Spark2.0所有的環境就配置好了。
我是卡弗卡大數據,關注我,讓我們一起為Spark前行。