日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark核心开发者:性能超Hadoop百倍,算法实现仅有其1/10或1/100

發布時間:2024/1/8 编程问答 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Spark核心开发者:性能超Hadoop百倍,算法实现仅有其1/10或1/100 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Spark核心開發者:性能超Hadoop百倍,算法實現僅有其1/10或1/100

發表于 2013-04-26 13:42|? 113488次閱讀| 來源 CSDN|? 449?條評論| 作者 王鵬

Tachyon Spark Shark 數據庫 AMPLab Reynold Xin 云計算大會 allowtransparency="true" frameborder="0" scrolling="no" src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F2013-04-26%2F2815057-Spark-Reynold&type=3&count=&appkey=&title=CSDN%E4%B8%93%E8%AE%BF%E4%BA%86Shark%E7%9A%84%E4%BD%9C%E8%80%85%EF%BC%8C%E4%B9%9F%E6%98%AFSpark%E7%9A%84%E6%A0%B8%E5%BF%83%E6%88%90%E5%91%98%EF%BC%8C%E6%9D%A5%E8%87%AA%E4%B8%AD%E5%9B%BD%E7%9A%84%E5%8D%9A%E5%A3%AB%E7%94%9FReynold%20Xin%E3%80%82%E5%9C%A8%E6%94%BB%E8%AF%BBBerkeley%E7%9A%84%E5%8D%9A%E5%A3%AB%E4%B9%8B%E5%89%8D%EF%BC%8C%E4%BB%96%E5%9C%A8Google%E5%92%8CIBM%E5%B7%A5%E4%BD%9C%E8%BF%87%E4%B8%80%E6%AE%B5%E6%97%B6%E9%97%B4%EF%BC%8C%E6%9B%BE%E5%9C%A8Google%E5%81%9A%E5%88%86%E5%B8%83%E5%BC%8F%E7%B3%BB%E7%BB%9F%E5%BC%80%E5%8F%91%EF%BC%8C%E8%BF%98%E5%8F%82%E4%B8%8E%E4%BA%86IBM%E5%88%86%E5%B8%83%E5%BC%8F%E7%9A%84DB2%E5%86%85%E6%A0%B8%E7%9A%84%E5%BC%80%E5%8F%91%E3%80%82&pic=&ralateUid=&language=zh_cn&rnd=1438492899839" width="22" height="16"> 摘要:CSDN專訪了Shark的作者,也是Spark的核心成員,來自中國的博士生Reynold Xin。在攻讀Berkeley的博士之前,他在Google和IBM工作過一段時間,曾在Google做分布式系統開發,還參與了IBM分布式的DB2內核的開發。

前幾天,CSDN報道了伯克利大學的一個項目Tachyon。記者及時聯系到了Berkeley計算機系AMPLab的博士生Reynold Xin,中文名字辛湜,他是Shark的作者,也是Spark的核心成員(@hashjoin)。

Spark是一個高效的分布式計算系統相比Hadoop,它在性能上比Hadoop要高100倍。Spark提供比Hadoop更上層的API,同樣的算法在Spark中實現往往只有Hadoop的1/10或者1/100的長度。Shark類似“SQL on Spark”,是一個在Spark上數據倉庫的實現,在兼容Hive的情況下,性能最高可以達到Hive的一百倍。?

圖:Spark的核心成員Reynold Xin

CSDN的專訪整理如下:

CSDN:你好,辛湜。請首先介紹一下自己。?

辛湜:我是UC Berkeley計算機系AMPLab的博士生,專注于數據庫以及計算機系統的研究。AMPLab正在開發一個大數據的處理平臺叫做Berkeley Data Analytics Stack (BDAS),其中包括了Spark, Shark等項目。我是Shark的作者,也是Spark的核心成員。?(辛湜的學術主頁)

在來Berkeley開始博士研究之前,我在Google和IBM工作過一段時間。在Google的時候主要做分布式系統開發,在IBM的時候做分布式的DB2內核的開發。之前我是在多倫多大學就讀工程科學專業本科(Engineering Science,類似工程物理)。?

CSDN:
為什么會選擇計算機專業?有什么特別的故事嗎??

辛湜:從小學開始接觸編程,當時覺得可以通過程序來控制電腦是一個十分神奇的事情。后來高中之后和一個朋友(網名“旅行”)合作,寫了一個在國內當時比較有名的論壇程序FastBoard(以及后續版本Celeste)。我們還建立了可能是當時中國最大的PHP論壇。不過后來因為個人學業原因幾個項目都沒有再繼續。?

CSDN:為什么會選擇伯克利大學?伯克利大學給你留下印象最深刻的東西是什么??

辛湜:大學是在加拿大多倫多大學讀的。當時選擇伯克利的原因主要有幾個方面:?

首先,我在選擇學校的時候幾個教授正要成立一個專門針對大數據的實驗室(就是AMPLab),由幾個來自不同學科的世界頂尖教授組成,比如說數據庫(Michael Franklin),系統(Ion Stoica),機器學習(Michael Jordan),計算機網絡(Scott Shenker),計算機架構(David Patterson, Randy Katz)等。世界上應該很難再找到一個類似的地方。?

其次,Berkeley數據庫和系統領域的研究項目基本上都會開源,對工業界有比較深的影響(BSD, PostgreSQL, Berkeley DB, TinyOS等等)。我個人希望我的研究想法可以超越論文的階段,所以Berkeley這幾點十分吸引我。?

最后要說一點,就是Berkeley自然環境非常好,我第一次參觀學校的時候住半山上,眺望了整個舊金山海灣和金門大橋。?

CSDN:現在主要從事哪一方面的工作?

辛湜:我其實最主要是做Shark和Spark。在Tachyon方面我主要負責Shark和Tachyon的集成,讓Shark可以原生的使用Tachyon里面“列”的概念。?

Tachyon的主要作者HY也是一個中國人。如果有興趣的話我可以介紹你們相互認識一下。(筆者正在準備采訪HY,請關注后續的報道)?

CSDN:在微博上看到你在很多地方做Spark和Shark的演講,可以簡單的介紹一下這兩方面的內容嗎??

辛湜:Spark是一個高效的分布式計算系統,相比Hadoop有以下幾個優勢:?

  • 性能可以比Hadoop高100倍。
  • Spark提供比Hadoop更上層的API,同樣的算法在Spark中實現往往只有Hadoop的十分之一或者一百分之一的長度。?

Shark類似“SQL on Spark”,是一個在Spark上數據倉庫的實現,在兼容Hive的情況下,性能最高可以達到Hive的一百倍。?

CSDN:
Tachyon現在開源了嗎??

辛湜:現在已經開源了。可以在Github上找到。

CSDN:你在微博上說“時代雜志2006及2011年度風云人物獎獲得者”,這個我有些疑惑??

辛湜:那是個玩笑, 2006年的時代雜志年度風云人物是“你”,包括了網絡上的每一個人。2011年的年度風云人物是所有參與了反華爾街示威抗議的人。2011年我在示威場所觀察了三個小時,當時在抗議加州政府對教育經費的削減。?

CSDN:了解知道國內的“云計算大會”嗎?CSDN已經舉辦了五屆,希望你有機會來參加,也非常希望你能來云計算大會做演講嘉賓,可以把更多的科技信息分享給大家。?

辛湜:聽過。有機會的話我也希望可以在會議上給大家介紹一下Berkeley開發的一些項目以及這些項目在工業界的應用。 (文/王鵬,審校/仲浩)

相關閱讀:Tachyon:吞吐量超過HDFS 300多倍 來自伯克利的分布式文件系統?

“??第五屆中國云計算大會?”將于2013年6月5-7日在北京國家會議中心隆重舉行。猛擊報名!

本文為CSDN編譯整理,未經允許不得轉載。如需轉載請聯系market@csdn.net?

總結

以上是生活随笔為你收集整理的Spark核心开发者:性能超Hadoop百倍,算法实现仅有其1/10或1/100的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。