使用spark-sql-perf评测spark 2.0
2019獨角獸企業重金招聘Python工程師標準>>>
文章分為四個部分講述怎樣使用spark官方評測工具評測spark 2.0 tpc ds支持情況
基礎環境的安裝
刀片機:1臺 126G內存 64核心 centos 7.2
virtualbox安裝四臺虛擬機(centos 7.2,16G內存,4核):master,worker1,worker2,worker3(centos下)
spark版本:2.0
hadoop版本:2.6
安裝請參考:hadoop安裝或者Spark On Yarn安裝
安裝后的截圖
davies/tpcds-kit 下載、編譯、部署
簡介
davies/tpcds-kit是用來生成測試數據的工具
下載
git clone https://github.com/davies/tpcds-kit.git
編譯
任選一臺機器(這里我們選擇master)安裝以下編譯工具(默認軟件里沒有編譯工具)
yum install gcc gcc-c++ bison flex cmake ncurses-devel cd tpcds-kit/tools cp Makefile.suite Makefile #復制Makefile.suite為Makefile make #運行make命令接下來,拷貝tpcds-kit到所有機器的相同目錄下(重要)
scp -r /目錄/tpcds-kit root@worker1:/目錄/tpcds-kit #執行三次該命令復制到worker1,worker2,worker3databricks/spark-sql-perf 下載、打包
下載
git clone https://github.com/databricks/spark-sql-perf.git
打包
使用sbt package打包的jar在使用時會出現依賴找不到情況,我們使用Intellij Idea導入該工程
修改sbt.build,更改scala版本為2.11.8
打包成jar包
設置Project Structure
設置Artifacts
Build
jar包不需要每個節點都有
運行TPCDS測試
更改spark.env中的driver內存限制
SPARK_DRIVER_MEMORY=8G #依具體情況而定
運行spark-shell
cd spark-2.0.0-bin-hadoop2.6 ./bin/spark-shell --jars /jar包目錄/spark-sql-perf.jar --num-executors 20 --executor-cores 2 --executor-memory 8G --master spark://master:7077在spark-shell中運行測試
// 創建sqlContext val sqlContext=new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ // 生成數據 參數1:sqlContext 參數2:tpcds-kit目錄 參數3:生成的數據量(GB) val tables=new Tables(sqlCotext,"/目錄/tpcds-kit/tools",1) tables.genData("hdfs://master:8020:tpctest","parquet",true,false,false,false,false); // 創建表結構(外部表或者臨時表) // talbles.createExternalTables("hdfs://master:8020:tpctest","parquet","mytest",false) talbles.createTemporaryTables("hdfs://master:8020:tpctest","parquet") import com.databricks.spark.sql.perf.tpcds.TPCDS val tpcds=new TPCDS(sqlContext=sqlContext) //運行測試 val experiment=tpcds.runExperiment(tpcds.tpcds1_4Queries)在spark-shell中我們可以調用 _experiment.html_查看執行狀態
HDFS上生成的數據截圖
運行截圖
運行結果保存在spark/performance目錄下
HDFS上的評測結果截圖
轉載于:https://my.oschina.net/u/697744/blog/805428
總結
以上是生活随笔為你收集整理的使用spark-sql-perf评测spark 2.0的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 坚持你选择的路
- 下一篇: Ansible自动化运维工具介绍