对话阿里云李飞飞:下一代企业级数据库6大技术方向
作者:老魚筆記
題圖:DTCC 2020大會專訪合影(左:老魚 右:李飛飛)
點擊 對話李飛飛視頻采訪 觀看采訪視頻
對話李飛飛,不僅僅是一次簡單的采訪,對老魚來說,也是一種收獲,因為,在數據庫領域李飛飛擁有敏銳的觸角,對數據庫發展趨勢有著獨到的見解和洞察。
在2020年12月結束的DTCC2020,“百庫爭鳴”或許是參會者最大的感觸。據不完全統計,目前有名有姓的國產數據庫產品多達200種。
百花齊放,百家爭鳴,這正是用戶所需要的。數據庫被國家列為“卡脖子”的35項關鍵技術之一。只有對數據庫基礎研究越重視,參與的企業越多,關注的人越多,才有可能誕生更好的數據庫軟件。
下一個10年,數據庫發展趨勢是什么?用戶需要什么樣的數據庫?這可能是很多從業者都想知道的問題,而這些問題,在DTCC2020大會上就有答案。
大會第一天,阿里巴巴集團副總裁,阿里云智能數據庫產品事業部負責人李飛飛就分享了他對數據庫領域的觀察,并指出了下一代企業級數據庫的6個關鍵技術方向。
眾所周知,Gartner最新公布的2020 年度全球云數據庫魔力象限評估結果,國內有3家廠商進入,其中阿里云更是挺進了第一陣營——領導者(LEADERS)象限。這意味著在云數據庫這條賽道上,中國數據庫并沒有落后于人,并且真正走進世界一流。
很多人或許沒留意到,今年Gartner將OPDBMS(Operational Database Management Systems)和DMSA(Data Management Solutions for Analytics)兩個本是分開領域合二為一,成為CDBMS(Cloud Database Management Systems)。
為什么Gartner要這樣做?因為Gartner認為“There is Only One Cloud Database DBMS Market”。這不僅意味著CDBMS魔力象限競爭更為激烈,含金量更高,也意味著一種趨勢,數據庫和數據倉庫是可以融合的。
因此,阿里云對下一代企業級數據庫關鍵技術的判斷還是極具參考價值的。
但對于6種關鍵技術,外界其實還存在一些不同的聲音。比如,有一種聲音認為,HTAP只是一種場景需求,并非一種趨勢。分布式是未來嗎?軟硬件一體化是不是又回到了被鎖定的老路?
為此,老魚在會后特意專訪李飛飛,就這些問題展開探討。
以下為本次專訪對話內容精選:
老魚:在您看來,過去的10年,中國數據庫技術發展呈現怎樣的趨勢?下一個10年會朝怎樣的方向發展?
李飛飛:過去十年,數據庫領域最大的趨勢,我覺得是從傳統數據庫架構向云原生架構演進的趨勢。
云廠商的崛起,是過去十年非常典型的特征。沒有人會想到,突然有一天,亞馬遜也開始做數據庫了,并悄無聲息的就已達到了全球數據庫領先位置。我認為,這跟云計算新賽道帶來的機遇是密不可分的。
云計算帶來的云原生技術體系催生了云原生數據庫和云原生數據倉庫。像AWS Aurora,AWS Redshift, Snowflake, 阿里云PolarDB、AnalyticDB(ADB)。我認為,都是新賽道帶來的全新發展機遇,這是一個非常典型且有著時代代表性的趨勢,向云原生演進。
另外一個大趨勢,是分布式技術的深度發展。過去十年,分布式技術從一個比較初級的形態發展到今天,有了今天的分布式數據庫和分布式數據倉庫。
接下來的十年,有哪些趨勢?
第一、云原生和分布式會發生深度融合,架構上無縫融合,提供更好的彈性、高可用能力。
第二、智能化技術深度融合,在數據庫中,如何用AI和相關技術,去做到智能化的運維管控,比如索引推薦,MySQL治理、異常檢測等。
第三、數據庫大數據一體化,包括HTAP以及離在線一體化,在過去的十幾年里,數據庫領域和大數據領域是分開的,一個做離線,一個做在線,相安無事。但從應用角度或客戶視角看,越來越多的客戶和應用需要最好是一套系統來解決數據從生產、處理、存儲、消費全鏈路的過程,客戶越來越希望減少數據移動和存儲成本,避免天天做數據同步。如果能夠實現離在線一體化或能夠實現HTAP事務分析一體化或離線計算在線查詢一體化,那這些問題都可以迎刃而解。這也是我認為,下個十年非常關鍵的趨勢。這也是為什么Gartner將OPDBMS(Operational Database Management Systems)和DMSA(Data Management Solutions for Analytics)兩個本是分開領域合二為一背后的核心邏輯。
第四、多模,除了結構化數據,怎么去處理文本、圖片等非結構化和半結構化數據?用數據庫方法去融合處理這些數據。
第五、軟硬件一體化,一定要關注硬件發展,比如:NVM、高速網絡等新硬件對數據庫系統設計帶來的沖擊。
第六、安全可信,這是個永恒的話題。不是最新趨勢,但會不斷演進。如何結合區塊鏈技術在數據庫系統里提供不可篡改性,如何將加密技術做到數據庫里對數據進行全程加密保護。
老魚:關于HTAP還是頗有些爭議。有觀點認為,HTAP只是一種細分使用場景,還談不上不是未來數據庫的趨勢,并且不建議把OLTP和OLAP業務完全混合,認為在典型的OLTP處理場景就使用面向OLTP設計的數據庫,否則,既達不到OLAP的擴展性,又無法滿足OLTP的實時、高性能等要求。您怎么看?
李飛飛:中國有句古話,魚和熊掌不可兼得。如果,今天有人告訴用戶說“我今天做了個HTAP數據庫可以替換傳統的OLTP數據庫,也可以替換傳統的OLAP數據倉庫,傳統的OLTP、OLAP系統都沒有用了”,那是不可能的。
如果用戶就是在線交易場景、高并發、讀寫沖突非常高,這種情況下還要做OLAP,做多表聚合查詢,是非常復雜的。此種情況下,和高并發事務放在一起,一定會有挑戰。
那為什么還要講HTAP,我認為并不是要徹底取代傳統OLTP或徹底取代傳統OLAP數據庫,HTAP有自己的市場。一些在線事務、在線交易的場景下,如果做一些不太復雜的分析,或者做復雜分析但隔離級別要求沒那么高,對實時性要求也不那么高,在這種場景下,能不能做到既做OLTP又做OLAP?那是有可能的。
比如,在我們事務處理里,都做三副本,三副本里可以做行列轉換,兩個副本可以是行存,第三個副本是列存,去讀列存副本,并保證高隔離機制高實時可見要求,在這種場景下是沒問題的。但如果做非常復雜,時效性要求非常高的分析計算,還是要專門的OLAP系統。
另外,將離線和在線一體化,既能做在線交互式分析也能做離線ETL是剛需。這個過程中,既然要做實時增、刪、改、查又要做交互式分析和復雜離線計算(但是前提是在一定的隔離級別以下,比如RC),一定會產生HTAP場景,但這個HTAP和理想中的HTAP既能支持高隔離級別、高并發還能做復雜分析是兩個概念。
我覺得,未來的場景一定是有復雜分析計算場景、數據庫大數據一體化場景,不管從那種角度, OLAP支持一定級別的OLTP, OLTP做得非常好還能兼顧一定的OLAP,這種場景是存在的。
老魚:這幾年,分布式數據庫非常火,很多企業都在試水,有成功的,也有失敗的,有種說法,數據量不上一定規模,沒有超高峰值,沒有高并發的場景就沒必要用分布式數據庫,因為,很可能不能獲得什么明顯優勢。您怎么看?
李飛飛:在今天的演講中,我旗幟鮮明的提到,不能為了分布式而分布式。今天分布式很火,有眾多原因。在美國市場,分布式OLTP數據庫商業化成功的案例并不多。以Oracle為例,并沒有將分布式作為最重要的主攻方向。
這其中包括美國分布式數據庫鼻祖Google Spanner以及出來創業的CockRoachDB,商業化規模也有待進一步提升。分布式解決的核心問題是水平拓展問題,但有前提條件,你的業務邏輯和數據分布方法是基本完美匹配的,這樣可以做到完美的并行分布式處理,這沒問題。但理想很美好,現實很骨干,很多業務場景沒辦法做到完美,即使能做到,業務邏輯隨著時間會變化,數據分布就可能會發生變化。
還有一種可能,一份數據有多個不同的業務,就像電商場景,既有買家又有賣家,你這數據到底是按買家ID來做,還是按賣家ID來做。不同業務場景需求不一樣,無論是按哪個邏輯去做分庫,最終會導致跨庫分布式事務處理和分布式查詢。在今天的場景下,如果要保證高級別的ACID,高并發場景下如果業務邏輯和數據分布不一致,一定會帶來大的讀寫沖突和事務處理成本,這是分布式數據庫無法完美解決的問題。
我們不能為分布式而分布式,而是要看業務場景,什么樣的業務場景需要分布式改造?比如業務邏輯相對成熟固定,數據分布也比較穩定,不大可能發生突然的數據分布變化,這種場景下做一個分布式設計,那沒問題,還可以提供完美水平拓展能力。如果不是這種場景,或者并非超高并發,大部分業務系統和應用其實并不需要分布式改造。
傳統單機系統也有非常明顯“短板”,用云原生能力對資源進行池化,實現資源解耦,可以對應用做透明集中式部署,能完美解決了這個場景。
再往后怎么辦,將分布式能力和云原生能力結合起來,將兩者的優勢結合起來。我覺得這才是下一代系統應該去做的一些突破。
老魚:您剛才提到的趨勢里,有軟硬一體,以前我們經常吐槽友商一款產品軟硬一體帶來鎖定。現在又回到了軟硬一體的路上,這到底是進步還是倒退?
李飛飛:軟硬一體,不能理解為軟硬一體綁定部署,如果是軟硬一體綁定部署就回到了以前那條老路上。雖然以前的產品有很多設計思想值得我們借鑒,實際上,有些產品先于云廠商意識到資源池化、資源解偶的重要性,并早于云廠商做了這些工作,但很可惜,是緊耦合的方式去做的,所以,市場的反應沒有那么好。
今天我講軟硬一體,并不是要去做這種軟硬件緊耦合在一起的部署,而是說,要去結合硬件的特點來設計和優化數據庫系統。尤其是能規模化部署的硬件,客戶并不需要為軟硬件一體化設計,因為這種硬件已經是通用硬件,這個非常關鍵。
軟硬件一體化優化,是每家數據庫廠商都必須要做的,因為系統本質是安全、高效的使用有限的硬件資源,必須結合硬件的特點來優化和設計系統。但問題是,不能針對特定、特殊硬件去做緊耦合,這樣倒逼用戶去改造硬件,這個成本太大。但是對普適性硬件如果視而不見,不針對硬件特點去發展會落伍。
總的來說,我想表達的軟硬件一體化的邏輯,是針對具備普適性、規模化鋪開的硬件,根據硬件不斷發展的特性,快速敏銳捕捉新特性,在數據庫系統設計里把硬件特性發揮出來。
老魚:今年阿里云首次進入Gartner全球領導力象限,您怎么看待這次入選?阿里云數據庫未來將如何去保持跟擴大自己的領導優勢?
李飛飛:阿里云只是中國數據庫的一個代表。今年不僅阿里云進入全球領導者象限,我們看到,有2家友商也首次進入了魔力象限,我覺得,這是歷史性突破。
阿里云進入全球領導者象限,代表著中國數據庫行業整體水平已經達到世界領先行列。進入第一陣營了,這是非常值得驕傲和自豪的,也給我們后續的發展奠定了非常好的基礎。
尤其是今年Gartner將大數據管理分析和傳統事務數據庫合二為一,在這個背景下取得這個成績,非常難能可貴。
我們看到各大云廠商以及Oracle、IBM等老牌和新貴Databricks、Snowflakes都在里面。后續競爭,我相信每一年會越來越激烈,怎么去保持?
第一,從市場中來、回到市場中去,貼著客戶需求去發展,而不是自嗨。
比如;今天我們看到,阿里云在公共云市場份額非常大,但也看到混合云市場機會非常大,針對混合云市場,如何去打造我們的產品和技術?這是新的挑戰。這種挑戰甚至可以說,美國云廠商遇到的挑戰都沒有我們多。
中國互聯網為什么在某種程度上發展的比美國還要好?因為市場驅動、客戶驅動、應用驅動,中國有這么多人口,有密集城市,所以中國的互聯網應用在某些程度發展的反而比美國好,因為它有驅動應用發展和創新的條件。在混合云市場,中國也具備這樣的條件。
美國IT數字化程度非常高,進入云計算之前,其數字化程度非常高。所以美國的企業對擁抱公有云相對中國市場是非常自然而然的事情。但中國市場不一樣,中國市場有中國市場的特點。
傳統政企對公共云的擁抱肯定沒有美國市場度高。所以,在中國混合云市場在相當長一段時間里會是一個核心賽道,這個市場上怎么發力?技術產品怎么設計?從市場需求出發,結合市場特點,做出一些差異化有特色的產品非常關鍵,這是第一點。
第二點,既然是全球領導者,那么,在全球市場上的表現就非常重要。阿里云不僅做中國市場,也要走出國門。在今天的環境下,在歐美市場會有一些挑戰,但在東南亞市場,在歐美市場之外還有廣闊的市場空間等著我們去增長。
這些市場,阿里云要直面國外云廠商的競爭,在與它們的PK中去贏得客戶。今年,阿里云能進入全球領導者象限很關鍵的原因是,阿里云有很多海外客戶,很多是從國外云廠商遷移過來,這對Gartner而言,是非常重要的信號,說明阿里云做得更好,客戶用腳來投票,這是非常有說服力的。
老魚:阿里云數據庫產品線,今年相比去年有什么變化?
李飛飛:我們會進一步聚焦,OLTP核心產品是PolarDB及分布式版PolarDB-X。OLAP有兩個核心產品,分別是云原生數據倉庫AnalyticDB和云原生數據湖分析DLA。NoSQL領域也是兩個核心產品,云原生多模數據庫Lindorm和云原生內存數據庫Tair。
還有托管產品RDS和NoSQL、和工具類產品。對托管產品,阿里云更多是在管控平臺這一層投入,結合云原生和智能化的技術把托管的優勢發揮出來。比如自動化實例管理、高可用等。
阿里云的核心思路還是聚焦在主賽道上,在核心自研產品上加大投入,托管產品和生態伙伴達成很好的合作關系,發揮托管平臺優勢。比如MongoDB,以前我們還在MongoDB上投入研發,現在兵力都收縮回來,我們跟MongoDB簽了個協議,用它的最新版,不是挺好的嗎?從數據庫內核產品再到運維服務再到應用開發ISV,借助和發展生態的力量是我們的核心戰略。
文章來源:老魚筆記
原文鏈接:https://developer.aliyun.com/article/781496?
版權聲明:本文內容由阿里云實名注冊用戶自發貢獻,版權歸原作者所有,阿里云開發者社區不擁有其著作權,亦不承擔相應法律責任。具體規則請查看《阿里云開發者社區用戶服務協議》和《阿里云開發者社區知識產權保護指引》。如果您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將立刻刪除涉嫌侵權內容。總結
以上是生活随笔為你收集整理的对话阿里云李飞飞:下一代企业级数据库6大技术方向的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 独家下载!2021前端热门技术解读
- 下一篇: linux cmake编译源码,linu