sparksql(1)——Dataframe
生活随笔
收集整理的這篇文章主要介紹了
sparksql(1)——Dataframe
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
sparksql類似于hive,但它基于內存,而hive基于mapreduce,而mapreduce又基于磁盤,所以spark處理數據快得多。
sparksql不止有sql語句,現在他還有Dataframe的API,Dataframe比寫RDD要快。dataframe將非結構化數據schema化。
sparksql類比于hive可以發現,hive在mapreduce上做了一個框架,而sparksql是在spark core里的rdd里面多出來的一個框架,并且還多了dataframe這樣的簡便框架,dataframe最終也是轉換為RDD的操作
前提:打開spark—master和spark—slave(前面有講過,我們用的是standalone模式,由master和worker去操作driver和executer)
(1)首先打開jupyter
(2)創建session對象
(3)查看任務
通過8088端口查看
(4)創建dataframe
(5)查看結果
可以見到dataframe可以將數據結構化,方便以后對數據的操作
總結
以上是生活随笔為你收集整理的sparksql(1)——Dataframe的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Spark(6)——Spark与scal
- 下一篇: sparksql(3)——datafra