DataBricks从开源到商业化踩过的坑
| 作者:行人
|?編輯:邵佳怡
| 設計:王福政
引言:聽到 What'S Next | 科技早知道 播客《S6E06|對話Databricks聯合創始人Reynold Xin:380 億美元估值背后的長期主義》,頗受啟發,本文作為一個筆記其中一些內容以及個人的一些思考,對文中內容感興趣的朋友建議聽一下這期節目。
導讀:
1、DataBricks早期的3個決定
2、開源軟件如何與AWS競爭?
3、數據的未來:湖倉一體
1、DataBricks早期的三個決定
DataBricks是UC Berkeley 人工智能實驗室的博士生及教授?于2013年成立的大數據公司,公司雛形誕生于 Apache Spark,通過開源 SaaS 模式服務企業客戶,最早提出湖倉一體,并且是唯一提供湖倉一體的云服務公司,提供了一個開放和統一的平臺支持大數據和人工智能,同時滿足數據倉庫和數據湖的應用場景。2021 年 8 月完成 16 億美元的 H 輪融資,估值 380 億美元。現在回頭看,在公司成立的早期,團隊做出的三個決定影響深遠。
1# 云服務
團隊堅信云計算是未來的方向,其聯合創始人Ion Stoica 和 Matei Zaharia 是《A Berkeley View of Cloud Computing》的作者,這篇論文在云計算發展中影響深遠,被引用上萬次。在公司早期的階段,不是所有人都深刻理解堅持云服務的理念,每年仍然會被新加入的員工挑戰,融資時也會被投資人挑戰,同時也不被客戶接受。所幸內部堅持云服務,投資人有耐心,客戶在2018年后也開始大規模上云。
2# 不做技術支持服務
技術支持服務依賴人員擴張以支持更多客戶,不具備大規模擴張的能力,而且利潤率也較低,商業模式不如云服務。2015年時,Spark在客戶中已經很有名氣,很多客戶找到團隊希望能提供咨詢和支持服務,有客戶愿意出1000萬美元,但會分散團隊的注意力,不利于長期發展,我們還是放棄了這塊業務;2018年,很多客戶已經看到云服務的未來,表示未來會遷移上云,但不確定什么時候會遷移;而到2019年,很多客戶已經行動起來,開始遷移上云,云服務已經成為業界的共識。
3# 數據科學(Data Sicence)
參加Netflix的人工智能競賽時,發現大規模數據集無法在一臺服務器上完成模型訓練,因此做了Spark項目;公司以Spark為基礎,選擇數據科學作為業務方向,為數據工程師提供工具,而沒有選擇競爭更激烈的數據倉庫賽道。數據科學作為細分市場是由Facebook、Netflix等公司提出,當時大多數公司還沒有相應的職位,沒有激烈的競爭,Spark很快被企業接受;而數據倉庫則面臨老牌的Teradata公司,以及AWS的RedShift的競爭。
雖然DataBricks看好云服務的未來,但也不清楚這個“未來”多久能到來,2年、5年、還是10年,不得不說這個也有運氣成分;而另外一家公司成立于2008年的Cloudera就沒有那么幸運,從名字就可以看出公司也堅信云服務是未來,但其大多數營收都是來自支持服務,2008-2018長達10年的運營中公司首先要解決活下來的問題,支持服務雖然不能大富大貴,也讓公司活到了云服務的黎明,最后被KKR和CD&R 以53億美元私有化。
2、開源軟件如何與AWS競爭?
到2015年Spark在業界就非常有名,很多公司已經在內部落地Spark項目,由于完全基于開源項目運營,公司并沒有賺到錢,在DataBricks還在通過開會賣T恤為生時,AWS的EMR大數據平臺托管的Spark服務每年應能夠獲得幾個億美元的營收,開源軟件該如何應對AWS的競爭呢?
1# 低成本
客戶并不會因為你的原廠服務就選擇你,如果服務一樣,有什么理由不選擇更便宜的AWS服務呢?我們發現多客戶在項目開放初期會使用我們的服務,與社區緊密互動獲得支持,但當大規模部署時仍然會選擇便宜得多的AWS 托管服務。由于AWS很少貢獻核心代碼,其大多數情況下僅僅是為開源項目提供一個控制臺,開發成本很低,因此其服務的價格要便宜得多。
2# 人才密度
由于AWS并不需要對開源項目深入研發,很難招聘到業界最優秀的工程師,可能也不需要非常優秀的工程師,這樣導致其在單個項目上人力和資金的投入往往是不如創業公司的。在跟進核心問題改造方面會遇到較大的障礙,這就給商業開源公司提供了打造差異化壁壘的機會。
3# 差異化競爭
我們開始重點考慮商業平臺的差異化服務,基于開源的API接口,提供差異化的商業服務,如性能、擴展性、安全等。差異化并不是意味著提供一些非開源功能,必須在用戶的核心路徑上解決用戶的問題,如果差異化的功能不是關鍵問題,用戶可能不需要;如果差異化的功能很簡單,AWS很可能會復制;這樣都達不到差異化的作用。DataBricks憑借其對Spark及數據科學領域的深刻洞察,為商業化平臺提供了強大的差異化能力,這也得益于其早期對開源項目的完全依賴。
4# 銷售策略
采取自下而上和自上而下相結合的銷售策略。在運營開源項目時,我們沒有銷售團隊,完全通過開發人員社區傳播,當我們意識到數據科學家在每個公司都屬于少數群體,不可能擴張到很多人時,開始組建銷售團隊直接與CXO對接,解決其面臨的痛點,目前已經相當規模的銷售團隊專門服務大客戶。
5# 多云策略
AWS云服務商只能提供自身云平臺的托管服務,而DataBricks則可以同時在多個云服務商中提供服務,目前已經支持主要的三個云服務商AWS、Azure、GCP等;而且與Azure的合作提供Azure DataBricks產品,讓Azure云平臺從不具備大數據處理能力一躍成為領先的大數據處理平臺,對云提供商其他服務的銷售也有明顯的帶動,實現雙贏。
DataBricks通打造差異化競爭優勢與AWS進行競爭,雖然我們主要產品都是基于開源軟件,但我們80%的精力都投入在商業服務上,DataBricks云平臺每天運行的虛擬機數量超過1200萬臺,大規模、可擴展、高可靠的數據平臺已經成為我們的競爭壁壘。
此外,MongoDB則選擇在2018年修改開源許可證,禁止云服務商托管開源服務,雖然AWS立即啟動了DocumentDB以兼容MongoDB,但隨著MongoDB的產品持續迭代,已經更新到5.0版本,而DocumentDB則只能停留在兼容的3.6和4.0版本,長期來看客戶仍然會站在MongoDB,截止2021年底全球客戶數已達33000個。2021年初,Elastic也選擇修改開源許可證協議,禁止云服務商托管開源服務,相信經過2-3年的產品迭代及創新,也將達到現在MongoDB現在的階段。
AWS最大的問題是資源太多,需要關注的產品更多,平均下來每個產品的資源就顯得非常有限,但對于大公司下決心要搞好的戰略級產品,創業公司要其正面競爭幾乎沒有機會。
目前,云提供商通過其Marketplace為獨立SaaS服務商提供了銷售市場,這對雙方來說是雙贏的結果,2021年Marketplace的市場規模大概40億美元,Tackle.io預測2025年市場規模將達到500億美元。
也難怪MongoDB的CEO說,“我們與AWS的關系從沒有像現在這么牢固”。
3、數據的未來:湖倉一體
DataBricks從數據處理切入,2018年發現數據處理80%的問題發生在存儲領域,而這些是由云廠商提供的,因此他們決定開啟Delta Layer項目,為數據湖提供統一的存儲層解決方案。
現在常見的數據解決方案是數據湖存儲所有數據,再將商業化相關的數據抽取到數據倉庫供商業分析師使用,通過權限管理限制不同團隊的數據訪問權限。
這種多層架構的關鍵問題是數據的分裂,不同決策人員可能看到不同的數據版本,這種不一致性可能導致得出不同的決策,從而影響到數據的權威性。
早在2019年DataBricks就提出LakeHouse的概念,即湖倉一體,使用統一數據平臺解決BI + AI的問題,目前DataBricks 比較擅長AI 并積極補齊BI的短板,而Snowflake 擅長BI 正補齊AI的能力,從這個角度看,未來DataBricks 和 Snowflake 可能是主要競爭對手。
此外,不少數據公司押注SQL,對他們來說“SQL is everything”,而DataBricks認為“SQL is not everything”,雖然SQL受眾廣泛,幾乎沒有用戶教育成本,但SQL本身不是為技術人員設計的,在解決復雜數據問題時容易遇到瓶頸,Python等高級語言對技術人員更友好。有些團隊為開發者提供高級語言,然后底層執行時再翻譯成SQL,這種方案遇到問題就很難定位。
本文是商業化系列文章,對相關話題感興趣的同學可以關注后續更新。
相關閱讀 | Related Reading
“源”來是你-Vol.37 | 知名開源企業StreamNative 招募開源社區運營和開源布道師!
Open the World:第七屆中國開源年會(COSCon'22)正式啟動~
企業實踐開源的動機
開源社簡介
開源社成立于 2014 年,是由志愿貢獻于開源事業的個人成員,依 “貢獻、共識、共治” 原則所組成,始終維持廠商中立、公益、非營利的特點,是最早以 “開源治理、國際接軌、社區發展、開源項目” 為使命的開源社區聯合體。開源社積極與支持開源的社區、企業以及政府相關單位緊密合作,以 “立足中國、貢獻全球” 為愿景,旨在共創健康可持續發展的開源生態,推動中國開源社區成為全球開源體系的積極參與及貢獻者。
2017 年,開源社轉型為完全由個人成員組成,參照 ASF 等國際頂級開源基金會的治理模式運作。近八年來,鏈接了數萬名開源人,集聚了上千名社區成員及志愿者、海內外數百位講師,合作了近百家贊助、媒體、社區伙伴。
總結
以上是生活随笔為你收集整理的DataBricks从开源到商业化踩过的坑的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Onestage Grounding
- 下一篇: YOLOv6: A Single-Sta