日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark 1.3 新特性 :176个贡献者,1000+ patches

發(fā)布時間:2024/9/30 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Spark 1.3 新特性 :176个贡献者,1000+ patches 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

https://databricks.com/blog/2015/03/24/spark-sql-graduates-from-alpha-in-spark-1-3.html?utm_source=tuicool

近日,Databricks正式發(fā)布Spark?1.3版本。在此版本中,除下之前我們報道過的DataFrame?API,此次升級還覆蓋Streaming、ML、SQL等多個組件。當(dāng)下,1.3版本已在?Apache?Spark頁面提供下載,下面一起瀏覽?Patrick Wendell在Databricks Blog上對Spark?1.3版本的概括(PS:DataFrame請訪問“?Spark新年福音:一個用于大規(guī)模數(shù)據(jù)科學(xué)的API——DataFrame??”一文)。

http://www.csdn.net/article/2015-02-17/2823997

以下為譯文

Spark?SQL脫離Alpha版本

在1.3版本中,Spark?SQL正式脫離Alpha版本,提供了更好的SQL標(biāo)準(zhǔn)兼容。同時,Spark?SQL數(shù)據(jù)源API亦實現(xiàn)了與新組件DataFrame的交互,允許用戶直接通過Hive表格、Parquet文件以及一些其他數(shù)據(jù)源生成DataFrame。用戶可以在同一個數(shù)據(jù)集上混合使用SQL和data?frame操作符。新版本提供了從JDBC讀寫表格的能力,可以更原生地支持Postgres、MySQL及其他RDBMS系統(tǒng)。同時,該API還為JDBC(或者其他方式)連接的數(shù)據(jù)源生成輸出表格提供寫入支持。

> CREATE TEMPORARY TABLE impressions USING org.apache.spark.sql.jdbc OPTIONS ( url "jdbc:postgresql:dbserver", dbtable "impressions" )> SELECT COUNT(*) FROM impressions

內(nèi)置支持Spark?Packages

在2014年底,我們著手為Spark建立一個新的社區(qū)項目目錄站點——Spark?Packages。當(dāng)下,Spark?Packages已經(jīng)包含了開發(fā)者可以使用的45個社區(qū)項目,包括數(shù)據(jù)源集成、測試工具以及教程。為了更方便Spark用戶使用,在Spark?1.3中,用戶可以直接將已發(fā)布包導(dǎo)入Spark?shell(或者擁有獨立flag的程序中)。

# Launching Spark shell with a package ./bin/spark-shell --packages databricks/spark-avro:0.2

Spark?Packages?還為開發(fā)者建立了一個SBT插件來簡化包的發(fā)布,并為發(fā)布包提供了自動地兼容性檢查。

在Spark?Streaming中提供了更低等級的Kafka支持

從過去發(fā)布的幾個版本來看,Kafka已經(jīng)成為Spark?Streaming一個非常人氣的輸入源。Spark?1.3引入了一個新的Kakfa?streaming?source,它利用了Kafka的回放能力,在非預(yù)寫日志配置下提供了一個更可靠的交付語義。同時,針對那些需求強一致性的應(yīng)用程序,它還提供了實現(xiàn)了Exactly-Once?Guarantees的原語。在Kafka的支持上,1.3版本還添加了一個Python?API以及支持這個API的原語。

MLlib中的新算法

Spark?1.3還提供了大量的新算法。其中,Latent?Dirichlet?Allocation(LDA)成為了第一個出現(xiàn)在MLlib中的主題建模算法。在這之前,Spark的邏輯回歸已經(jīng)通過多元邏輯回歸(multinomial?logistic?regression?)支持多類分類(multiclass?classification)。而在這個版本中,聚類再次被提升,Gaussian?Mixture?Models和?Power?Iteration?Clustering被引入。并通過FP-growth擴展了頻繁項集挖掘(FIM,Frequent?Itemsets?Mining)。最后,MLlib還為Distributed?Linear?Algebra引入了有效的塊矩陣抽象。(編譯/仲浩 審校/錢曙光)

與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖

總結(jié)

以上是生活随笔為你收集整理的Spark 1.3 新特性 :176个贡献者,1000+ patches的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。