学习笔记Spark(八)—— Spark SQL应用(3)—— Spark DataSet基础操作
生活随笔
收集整理的這篇文章主要介紹了
学习笔记Spark(八)—— Spark SQL应用(3)—— Spark DataSet基础操作
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
三、Spark DataSet基本操作
3.1、DataSet簡介
- DataSet是分布式的數(shù)據(jù)集合,DataSet提供了強類型支持,也是在RDD的每行數(shù)據(jù)加了類型約束。
- DateSet整合了RDD和DataFrame的優(yōu)點,支持結構化和非結構化數(shù)據(jù)。
- DataFrame表示為DataSet[Row],即DataSet的子集。
- DataSet是面向?qū)ο蟮木幊探涌?#xff0c;可以通過JVM的對象進行構建DataSet。
3.1.1、DataFrame的缺點
3.1.2、DateSet的優(yōu)點
3.2、創(chuàng)建DataSet
- 從集合創(chuàng)建DataSet
- 從rdd創(chuàng)建DataSet
- 從DataFrame創(chuàng)建DataSet
3.2.1、從集合創(chuàng)建DataSet
createDataset[T](data: List[T])3.2.2、從rdd創(chuàng)建DataSet
createDataset[T](data: RDD[T])3.2.3、從DataFrame創(chuàng)建DataSet
dataSet=dataFrame.as[強類型]
任務1:讀取Hive表中的超市商品銷售數(shù)據(jù)
- 創(chuàng)建Hive表
- 導入用戶購買數(shù)據(jù)到Hive表
- 讀取Hive表數(shù)據(jù)創(chuàng)建DataSet
數(shù)據(jù) GoodOrder.csv:
步驟:
① 因為是csv,所以我們先上傳到hdfs上
② 打開spark-shell,通過DataFrame方式保存到hive中
hive中查看數(shù)據(jù):
③ 讀取Hive表數(shù)據(jù)創(chuàng)建DataSet
3.3、DataSet API
應用示例:
(這是一個DataSet)
任務2:統(tǒng)計每件商品的銷量
- 根據(jù)商品分組統(tǒng)計商品銷量
- 將統(tǒng)計結果保存到Hive
hive查看:
總結
以上是生活随笔為你收集整理的学习笔记Spark(八)—— Spark SQL应用(3)—— Spark DataSet基础操作的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 学习笔记Spark(七)—— Spark
- 下一篇: rawquery 没扎到返回什么_当my