日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > windows >内容正文

windows

系统日报-20220421(Databricks 缘何成功?)

發布時間:2024/1/8 windows 26 豆豆
生活随笔 收集整理的這篇文章主要介紹了 系统日报-20220421(Databricks 缘何成功?) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

《系統日報》持續關注分布式系統、AI System,數據庫、存儲、大數據等相關領域文章。每天以摘要的形式精選不超過三篇系統文章分享給大家。

如果你有好文章推薦,或者有其他任何想法,歡迎在 Articles Weekly Repo[1]提 issue。

Spark 背后的公司 Databricks 的前世今生

來源:https://guiguzaozhidao.fireside.fm/s6e06

摘要:早高峰的地鐵上在朋友圈看到播客“What’s Next | 科技早知道[2]” 客座主播 Howie 對 Databricks 華人聯合創始人辛湜(Reynold Xin[3])的采訪,到公司了仍然沒有聽完,但收獲良多,感興趣的同學可以聽一下。

Spark 作為一個成功的開源項目,在很多公司都早有落地;但是其背后的商業公司 Databricks,在近些年才被越來越多的提起。尤其是其友商“Snowflake” 以天價估值上市后,Databricks 作為對標更加炙手可熱。為什么一個做開源基礎軟件的商業公司能夠如此成功?他們做對了什么,又對中國當下類似定位的公司有什么啟發?主播人雖然普通話口音有點奇怪,但是問的問題都非常有深度和引導性,讓本次播客呈現了一場高質量的對話探討。

下面憑記憶摘錄一些:

Databricks 成立契機?

UC Berkeley 實驗室同學參加 Netflix Challenge,為了實現多機處理數據造了一個數據處理框架。雖然由于晚交了 20min 沒有拿到 100w 大獎,但是卻孵化出了 Spark。辛湜是 2010 年到的 Berkeley 開始參與這個項目。

Databricks 如此成功是因為做對了什么?

從開始就堅持三個原則:All in Cloud、不做數據倉庫、不做定制化和 Support。

All in Cloud 和不做定制化和 Support:使得基礎軟件能夠規模化,最大化公司人員的單位產出。感覺有點像用 ToC 的方式去做 ToB 的產品,但也唯有如此,才能發揮軟件架構價值,撐起想象力。

不做數據倉庫:有其他一些大廠、云廠商本身也有平臺優勢,避開太卷的賽道。

為什么在公司誕生之初就能 ALL in Cloud?

是因為投資人嗎?并不,大部分還是因為創始團隊的 Berkeley 背景,有很強的 foresee 視野,對云時代的到來很堅定,還在 09 年發表過專門論文:Above the Clouds: A Berkeley View of Cloud Computing[4],有上萬篇引用,并且火到出圈。

在發展過程中對上述信條有沒有過懷疑?

有過,還算比較幸運,因為都知道云是未來,但不知道這個未來是多久后來。比如 Cloudera 在 08-09 年成立時,從名字就可以看出想開啟云時代,但生不逢時,后來還是改變了策略。

也有過很多其他道路的誘惑,比如有個 1000w 美元的大單子,只要求提供 support 。而剛開始時,Databricks 產品的營收甚至不如做 Spark 峰會的賣票錢。

剛開始,新入職的員工和融資時,All in Cloud 都會受到挑戰,但是到 2018~2019 年左右就開始形成了共識,沒人挑戰了。

相對云廠商自身產品有什么優勢?

云廠商有很多業務分散精力,小公司能夠更專注,對 Spark 技術積累更多、所面臨的場景理解更深。

Databricks 有沒有業務暴增的轉折點?

沒有嚴格意義上的大客戶的轉折點,但有和 Azure 的合作值得一說。

15 年的時候 Amazon host Spark 已經有幾個億的營收了。Databricks 在 17 年和 Azure 的合作,做了叫做 Azure Databricks 的一款產品,大賣,成為了 Azure 的標桿服務。Azure 與 Databricks 互相成就,共同做大。

為什么決定做湖倉一體?

計算自然延伸到存儲,開始做數據湖(面向數據科學家、深度學習場景)。為了消除用戶組織內部的數據壁壘,自然想能不能打通數據湖和數據倉庫(面向 BI )?于是提出湖倉一體(Lakehouse)。

此外,辛湜還分享了通過“引薦”的招人制度,以及創業公司中一些問題。播客是個好媒介,可以利用碎片時間,一邊聽一邊思考。

參考資料

[1] 任何想法都歡迎來提 issue: https://github.com/DistSysCorp/ArticleListWeekly/issues

[2] What’s Next | 科技早知道: https://guiguzaozhidao.fireside.fm/

[3] Reynold Xin 領英: https://www.linkedin.com/in/rxin/

[4] Above the Clouds: A Berkeley View of Cloud Computing: https://www2.eecs.berkeley.edu/Pubs/TechRpts/2009/EECS-2009-28.pdf

往期文章:

CockroachDB 和 TiDB 中 SQL 的分布式執行

DDIA 讀書分享 第三章(上):LSM-Tree 和 B-Tree

聊聊選擇 offer 的幾個維度

總結

以上是生活随笔為你收集整理的系统日报-20220421(Databricks 缘何成功?)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。