當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

sparksql（1）——Dataframe

發布時間：2024/4/18 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 sparksql（1）——Dataframe 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

sparksql類似于hive，但它基于內存，而hive基于mapreduce，而mapreduce又基于磁盤，所以spark處理數據快得多。
sparksql不止有sql語句，現在他還有Dataframe的API，Dataframe比寫RDD要快。dataframe將非結構化數據schema化。
sparksql類比于hive可以發現，hive在mapreduce上做了一個框架，而sparksql是在spark core里的rdd里面多出來的一個框架，并且還多了dataframe這樣的簡便框架，dataframe最終也是轉換為RDD的操作
前提：打開spark—master和spark—slave（前面有講過，我們用的是standalone模式，由master和worker去操作driver和executer）
（1）首先打開jupyter

（2）創建session對象

（3）查看任務
通過8088端口查看

（4）創建dataframe

（5）查看結果

可以見到dataframe可以將數據結構化，方便以后對數據的操作

總結

以上是生活随笔為你收集整理的sparksql（1）——Dataframe的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Spark（6）——Spark与scal
下一篇： sparksql（3）——datafra