當前位置：首頁 > 运维知识 > 数据库 >内容正文

数据库

spark入门_Spark技术入门——配置部署、SparkSQL应用

發布時間：2025/3/20 数据库 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 spark入门_Spark技术入门——配置部署、SparkSQL应用小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

#Spark# #大數據# #Hadoop# #大數據分析#

配置：配置主節點和子節點slaves

#指定哪些節點是worker

node2

node3

配置：環境變量sbin/spark-env.sh

#配置java環境變量

export JAVA_HOME=/export/servers/jdk

#指定master的地址

export SPARK_MASTER_HOST=node1

#指定master的端口

export SPARK_MASTER_PORT=7077

啟動：bin/start-all.sh

WebUI:IP:8080

交互式：spark-shell：scala函數式編程。

集成到Spark中，統一的數據源(DataFrame)和標準的數據連接方式(JDBCODBC).

DSL：case class()、textfile.map。

collect展示數據，printschema查詢表結構，select查詢數據，show展示數據。

case class Emp(empno:Int,ename:String,job:String,mgr:Int,hiredate:String,sal:Int,comm:Int,depno:Int)

val lines=sc.textFile("/user/root/emp.csv").map(_.split(","))

line.collect

val allEmp=lines.map(x=>Emp(x(0).toInt,x(1),x(2),x(3).toInt,x(4),x(5).toInt,x(6).toInt,x(7).toInt))

SQL查詢

val df=allEmp.toDF

df.select(“*”).show

以上是生活随笔為你收集整理的spark入门_Spark技术入门——配置部署、SparkSQL应用的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。