spark入门_Spark技术入门——配置部署、SparkSQL应用
#Spark# #大數據# #Hadoop# #大數據分析#
配置:配置主節點和子節點slaves
#指定哪些節點是worker
node2
node3
配置:環境變量sbin/spark-env.sh
#配置java環境變量
export JAVA_HOME=/export/servers/jdk
#指定master的地址
export SPARK_MASTER_HOST=node1
#指定master的端口
export SPARK_MASTER_PORT=7077
啟動:bin/start-all.sh
WebUI:IP:8080
2 應用
2.1 執行jar應用:spark-submit:
交互式:spark-shell:scala函數式編程。
2.2 SparkSQL:spark-shell
集成到Spark中,統一的數據源(DataFrame)和標準的數據連接方式(JDBCODBC).
DSL:case class()、textfile.map。
collect展示數據,printschema查詢表結構,select查詢數據,show展示數據。
case class Emp(empno:Int,ename:String,job:String,mgr:Int,hiredate:String,sal:Int,comm:Int,depno:Int)
val lines=sc.textFile("/user/root/emp.csv").map(_.split(","))
line.collect
val allEmp=lines.map(x=>Emp(x(0).toInt,x(1),x(2),x(3).toInt,x(4),x(5).toInt,x(6).toInt,x(7).toInt))
SQL查詢
val df=allEmp.toDF
df.select(“*”).show
總結
以上是生活随笔為你收集整理的spark入门_Spark技术入门——配置部署、SparkSQL应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 读grid 数据_科学网—
- 下一篇: sql 判断记录是否存在_判断数据库是否