日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人文社科 > 生活经验 >内容正文

生活经验

【Spark】Spark2.x版的新特性

發布時間:2023/11/27 生活经验 78 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【Spark】Spark2.x版的新特性 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、API

? ? 1. 出現新的上下文接口:SparkSession,統一了SQLContext和HiveContext,并且為SparkSession開發了新的流式調用的configuration API

? ? 2.?統一了DataFrame和DataSet。DataFrame相當于DataSet[Row],以及DataSet的增強聚合API

? ? 3. 增強了累加器accumulator的功能,支持Web UI,便捷的API,性能更高

二、SQL

? ? 1. 支持SQL2003標準

? ? 2. 支持ansi-sql 和hive ql的sql parser(SQL解析器)

? ? 3. 支持DDL,支持子查詢(in/not in 、 exists/ not exists)

三、性能

? ? 1. 通過whole-stage-code generation(全流程代碼生成)技術將SparkSQL和DataSet的性能提升了2~10倍。(在下一篇博文中會淺談全流程代碼生成技術)

? ? 2. 通過vectorization(向量化)技術提升parquet文件的掃描吞吐量

? ? 3. 提升orc文件的讀寫性能

? ? 4. 提升catalyst查詢優化器的性能

? ? 5. 通過native實現方式提升窗口函數的性能

四、 Spark Streaming

? ? 1. Structured Streaming在Spark2.0中是測試版,2.0之后是released版,它基于SparkSQL和Catalyst引擎構建,支持DataFrame風格的API進行流式計算。

? ? 2. 基于DStream的API支持kafka0.10版本

五、Spark MLlib

? ? 1.? 基于DataFrame的API支持持久化保存、加載模型、Pipeline,支持更多的算法,支持向量和矩陣使用性能更高的序列化機制。

? ? 2.? Spark R支持MLlib算法,包括線性回歸、樸素貝葉斯等

? ? 3. 未來Spark MLlib將主要基于DataSet API來實現,基于RDD和API將轉為維護階段

六、Other

? ? 1. 支持csv文件

? ? 2. 支持hive風格的bucket表

? ? 3. 支持緩存和程序運行的堆外內存管理

? ? 4. 完全移除了對akka的依賴

? ? 5. 使用Scala2.11代替了Scala2.10,要求基于Scala2.11版本進行開發,而不是Scala2.10

? ? 6. Mesos粗粒度模式下,支持啟動多個Executor

????

?

轉載于:https://www.cnblogs.com/snova/p/9195693.html

總結

以上是生活随笔為你收集整理的【Spark】Spark2.x版的新特性的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。