當前位置：首頁 > 运维知识 > windows >内容正文

windows

系统日报-20220421（Databricks 缘何成功？）

發布時間：2024/1/8 windows 26 豆豆

生活随笔收集整理的這篇文章主要介紹了系统日报-20220421（Databricks 缘何成功？）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

《系統日報》持續關注分布式系統、AI System，數據庫、存儲、大數據等相關領域文章。每天以摘要的形式精選不超過三篇系統文章分享給大家。

如果你有好文章推薦，或者有其他任何想法，歡迎在 Articles Weekly Repo[1]提 issue。

Spark 背后的公司 Databricks 的前世今生

來源：https://guiguzaozhidao.fireside.fm/s6e06

摘要：早高峰的地鐵上在朋友圈看到播客“What’s Next | 科技早知道[2]” 客座主播 Howie 對 Databricks 華人聯合創始人辛湜（Reynold Xin[3]）的采訪，到公司了仍然沒有聽完，但收獲良多，感興趣的同學可以聽一下。

Spark 作為一個成功的開源項目，在很多公司都早有落地；但是其背后的商業公司 Databricks，在近些年才被越來越多的提起。尤其是其友商“Snowflake” 以天價估值上市后，Databricks 作為對標更加炙手可熱。為什么一個做開源基礎軟件的商業公司能夠如此成功？他們做對了什么，又對中國當下類似定位的公司有什么啟發？主播人雖然普通話口音有點奇怪，但是問的問題都非常有深度和引導性，讓本次播客呈現了一場高質量的對話探討。

下面憑記憶摘錄一些：

Databricks 成立契機？

UC Berkeley 實驗室同學參加 Netflix Challenge，為了實現多機處理數據造了一個數據處理框架。雖然由于晚交了 20min 沒有拿到 100w 大獎，但是卻孵化出了 Spark。辛湜是 2010 年到的 Berkeley 開始參與這個項目。

Databricks 如此成功是因為做對了什么？

從開始就堅持三個原則：All in Cloud、不做數據倉庫、不做定制化和 Support。

All in Cloud 和不做定制化和 Support：使得基礎軟件能夠規模化，最大化公司人員的單位產出。感覺有點像用 ToC 的方式去做 ToB 的產品，但也唯有如此，才能發揮軟件架構價值，撐起想象力。

不做數據倉庫：有其他一些大廠、云廠商本身也有平臺優勢，避開太卷的賽道。

為什么在公司誕生之初就能 ALL in Cloud？

是因為投資人嗎？并不，大部分還是因為創始團隊的 Berkeley 背景，有很強的 foresee 視野，對云時代的到來很堅定，還在 09 年發表過專門論文：Above the Clouds: A Berkeley View of Cloud Computing[4]，有上萬篇引用，并且火到出圈。

在發展過程中對上述信條有沒有過懷疑？

有過，還算比較幸運，因為都知道云是未來，但不知道這個未來是多久后來。比如 Cloudera 在 08-09 年成立時，從名字就可以看出想開啟云時代，但生不逢時，后來還是改變了策略。

也有過很多其他道路的誘惑，比如有個 1000w 美元的大單子，只要求提供 support 。而剛開始時，Databricks 產品的營收甚至不如做 Spark 峰會的賣票錢。

剛開始，新入職的員工和融資時，All in Cloud 都會受到挑戰，但是到 2018~2019 年左右就開始形成了共識，沒人挑戰了。

相對云廠商自身產品有什么優勢？

云廠商有很多業務分散精力，小公司能夠更專注，對 Spark 技術積累更多、所面臨的場景理解更深。

Databricks 有沒有業務暴增的轉折點？

沒有嚴格意義上的大客戶的轉折點，但有和 Azure 的合作值得一說。

15 年的時候 Amazon host Spark 已經有幾個億的營收了。Databricks 在 17 年和 Azure 的合作，做了叫做 Azure Databricks 的一款產品，大賣，成為了 Azure 的標桿服務。Azure 與 Databricks 互相成就，共同做大。

為什么決定做湖倉一體？

計算自然延伸到存儲，開始做數據湖（面向數據科學家、深度學習場景）。為了消除用戶組織內部的數據壁壘，自然想能不能打通數據湖和數據倉庫（面向 BI ）？于是提出湖倉一體（Lakehouse）。

此外，辛湜還分享了通過“引薦”的招人制度，以及創業公司中一些問題。播客是個好媒介，可以利用碎片時間，一邊聽一邊思考。

參考資料

[1] 任何想法都歡迎來提 issue: https://github.com/DistSysCorp/ArticleListWeekly/issues

[2] What’s Next | 科技早知道: https://guiguzaozhidao.fireside.fm/

[3] Reynold Xin 領英: https://www.linkedin.com/in/rxin/

[4] Above the Clouds: A Berkeley View of Cloud Computing: https://www2.eecs.berkeley.edu/Pubs/TechRpts/2009/EECS-2009-28.pdf

往期文章：

CockroachDB 和 TiDB 中 SQL 的分布式執行

DDIA 讀書分享第三章（上）：LSM-Tree 和 B-Tree

聊聊選擇 offer 的幾個維度

總結

以上是生活随笔為你收集整理的系统日报-20220421（Databricks 缘何成功？）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 2022年HELIUM3将引领链游开启g
下一篇：菊风云 | 视频会议系统市场下沉，农村市