Spark 1.0.0版本发布
前言
如今Spark終于邁出了里程碑一步,1.0.0標(biāo)記的版本號出版物Spark1.0時代。1.0.0版本號不僅增加了非常多新特性。而且提供了更好的API支持。Spark SQL作為一個新的組件增加。支持在Spark上存儲和操作結(jié)構(gòu)化的數(shù)據(jù)。已有的標(biāo)準(zhǔn)庫比方ML、Streaming和GraphX也得到了非常大程度上的增強(qiáng)。對Spark和Python的接口也變得更穩(wěn)定。
下面是幾個基本的改進(jìn)點(diǎn):
融合YARN的安全機(jī)制
Hadoop有著自己的安全機(jī)制。包含認(rèn)證和授權(quán)。Spark如今能夠和Hadoop/YARN的安全模型并存,也就是說Spark能夠?qū)θ蝿?wù)提交(job submission)進(jìn)行認(rèn)證,能夠使用HDFS的認(rèn)證機(jī)制進(jìn)行數(shù)據(jù)的安全傳輸,各組件之間也添加了互相認(rèn)證。
改善了任務(wù)提交的流程
這個版本號在非常大程度上增強(qiáng)了Spark應(yīng)用的提交。Spark啟用新的任務(wù)提交工具spark-submit tool以便可以通過一個普通進(jìn)程向任一Spark集群提交應(yīng)用程序。Spark的UI界面中也添加了歷史任務(wù)的記錄,方便了用戶查看已經(jīng)結(jié)束了任務(wù)執(zhí)行情況。
Spark SQL的增加
Spark SQL作為一個新組建添加到1.0.0版本號中,它能夠利用Spark進(jìn)行結(jié)構(gòu)化數(shù)據(jù)的存儲和操作,結(jié)構(gòu)化數(shù)據(jù)既能夠賴在外部結(jié)構(gòu)化數(shù)據(jù)源(當(dāng)前支持Hive和Parquet),也能夠通過向已有RDD添加schema的方式得到。
Spark SQL提供了方便的調(diào)用接口,用戶能夠通過SQL語句來與Spark代碼交互。
當(dāng)前Spark SQL使用Catalyst優(yōu)化器來對SQL語句進(jìn)行優(yōu)化從而得到更有效的運(yùn)行方案,而且能夠?qū)⒔Y(jié)果存儲到Parquet格式中,在將來Spark SQL還會兼容其它的存儲系統(tǒng)。
MLib的改進(jìn)
這個版本號的MLib添加了對Scala、Java、Python中稀疏特征向量的支持。其主要利用了線性方法、k-means和樸素貝葉斯在存儲和計(jì)算上的稀疏性。1.0.0的MLib還添加了幾個新的算法,包含為分類和回歸添加了可擴(kuò)展的決策樹、矩陣算法的分布式實(shí)現(xiàn)(包含SVD和PCA)、模型評估函數(shù)以及L-BFGS算法。?
GraphX和Streaming的改進(jìn)
GraphX在圖載入、邊反轉(zhuǎn)和鄰接計(jì)算方面對通信的要求更低,產(chǎn)生的RDD圖更簡單,從而在性能方面得到了非常大提升。
Spark Streaming提供了對Flume的支持,在狀態(tài)流轉(zhuǎn)換方面進(jìn)行了很多優(yōu)化,而且可以對長時間執(zhí)行任務(wù)的狀態(tài)進(jìn)行自己主動清理。
?
另外。Spark還對調(diào)用接口提供了更好的支持。包含對Java 1.8的支持,對Python很多其它版本號的兼容。使用對外內(nèi)存進(jìn)行RDD的cache,對小文件的更好支持等。
后記
非常榮幸從0.7.3版本號就開始熟悉、使用Spark,也非常開心自己介入了Spark開源項(xiàng)目的貢獻(xiàn)。1.0.0的release note中已經(jīng)有了自己的身影。盡管做了僅僅是非常小的貢獻(xiàn)。可是還是感到一點(diǎn)點(diǎn)的滿足感,未來會繼續(xù)關(guān)注開源社區(qū)。
近期會增強(qiáng)對Spark的使用,并開始從架構(gòu)上源代碼級別的分析Spark。
?
參考:http://spark.apache.org/releases/spark-release-1-0-0.html
聲明:
本文為原創(chuàng)。禁止用于不論什么商業(yè)用途,轉(zhuǎn)載請注明出處:http://blog.csdn.net/asongoficeandfire/article/details/27725401
總結(jié)
以上是生活随笔為你收集整理的Spark 1.0.0版本发布的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MyEcplise安装Freemarke
- 下一篇: 输入和学生成绩的输出