日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark 1.0.0版本发布

發布時間:2025/7/14 编程问答 48 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Spark 1.0.0版本发布 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

如今Spark終于邁出了里程碑一步,1.0.0標記的版本號出版物Spark1.0時代。1.0.0版本號不僅增加了非常多新特性。而且提供了更好的API支持。Spark SQL作為一個新的組件增加。支持在Spark上存儲和操作結構化的數據。已有的標準庫比方ML、Streaming和GraphX也得到了非常大程度上的增強。對Spark和Python的接口也變得更穩定。

下面是幾個基本的改進點:

融合YARN的安全機制

Hadoop有著自己的安全機制。包含認證和授權。Spark如今能夠和Hadoop/YARN的安全模型并存,也就是說Spark能夠對任務提交(job submission)進行認證,能夠使用HDFS的認證機制進行數據的安全傳輸,各組件之間也添加了互相認證。

改善了任務提交的流程

這個版本號在非常大程度上增強了Spark應用的提交。Spark啟用新的任務提交工具spark-submit tool以便可以通過一個普通進程向任一Spark集群提交應用程序。Spark的UI界面中也添加了歷史任務的記錄,方便了用戶查看已經結束了任務執行情況。

Spark SQL的增加

Spark SQL作為一個新組建添加到1.0.0版本號中,它能夠利用Spark進行結構化數據的存儲和操作,結構化數據既能夠賴在外部結構化數據源(當前支持Hive和Parquet),也能夠通過向已有RDD添加schema的方式得到。

Spark SQL提供了方便的調用接口,用戶能夠通過SQL語句來與Spark代碼交互。

當前Spark SQL使用Catalyst優化器來對SQL語句進行優化從而得到更有效的運行方案,而且能夠將結果存儲到Parquet格式中,在將來Spark SQL還會兼容其它的存儲系統。

MLib的改進

這個版本號的MLib添加了對Scala、Java、Python中稀疏特征向量的支持。其主要利用了線性方法、k-means和樸素貝葉斯在存儲和計算上的稀疏性。1.0.0的MLib還添加了幾個新的算法,包含為分類和回歸添加了可擴展的決策樹、矩陣算法的分布式實現(包含SVD和PCA)、模型評估函數以及L-BFGS算法。?

GraphX和Streaming的改進

GraphX在圖載入、邊反轉和鄰接計算方面對通信的要求更低,產生的RDD圖更簡單,從而在性能方面得到了非常大提升。

Spark Streaming提供了對Flume的支持,在狀態流轉換方面進行了很多優化,而且可以對長時間執行任務的狀態進行自己主動清理。

?

另外。Spark還對調用接口提供了更好的支持。包含對Java 1.8的支持,對Python很多其它版本號的兼容。使用對外內存進行RDD的cache,對小文件的更好支持等。

后記

非常榮幸從0.7.3版本號就開始熟悉、使用Spark,也非常開心自己介入了Spark開源項目的貢獻。1.0.0的release note中已經有了自己的身影。盡管做了僅僅是非常小的貢獻??墒沁€是感到一點點的滿足感,未來會繼續關注開源社區。

近期會增強對Spark的使用,并開始從架構上源代碼級別的分析Spark。

?

參考:http://spark.apache.org/releases/spark-release-1-0-0.html

聲明:

本文為原創。禁止用于不論什么商業用途,轉載請注明出處:http://blog.csdn.net/asongoficeandfire/article/details/27725401

總結

以上是生活随笔為你收集整理的Spark 1.0.0版本发布的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。