一、 安裝
下載jdk、scala、spark並配置環境變量/etc/profile
創建軟鏈接
打開python的spark連接窗口 or ./bin/spark-submit test.py
簡化連接窗口日誌信息
在conf目錄下:cp log4j.properties.template log4j.properties
vim log4j.properties
cp spark-env.sh.template spark-env.sh(編譯好的故scala不用配置)
cp slaves.template slaves
啟動
Linux or window下瀏覽器訪問:
Spark shell 求pi 或者(./bin/run-example SparkPi 10)
一、 Wordcount
啟動spark\hdfs
進入pyspark或者(bin/pyspark --master spark://spark01:7077 --executor-memory 1G --total-executor-cores 1)運行:
sc.textFile('hdfs://spark01:9000/wc/test01.log').flatMap(lambda line: line.split("\t")).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b).saveAsTextFile('hdfs://spark01:9000/out')
或者新建文件test.py
執行bin/spark-submit test.py
bin/spark-submit --master spark://spark01:7077 --executor-memory 1G --total-executor-cores 1 test.py
一、 RDD
1.Pyspark命令行
2.Python文件形式