阿里云李飞飞:传统数据库步履蹒跚,未来的机会在哪里?
簡(jiǎn)介: 日前,阿里云云原生數(shù)據(jù)庫(kù)PolarDB和云原生數(shù)據(jù)倉(cāng)庫(kù)AnalyticDB在印度正式上線,當(dāng)?shù)刂腎T媒體YourStory對(duì)阿里云智能數(shù)據(jù)庫(kù)事業(yè)部總負(fù)責(zé)人李飛飛博士進(jìn)行了專訪。
在采訪中李飛飛表示,隨著計(jì)算和數(shù)據(jù)上云的趨勢(shì)快速發(fā)展,傳統(tǒng)數(shù)據(jù)庫(kù)步履蹣跚,云原生數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)利用云原生技術(shù)最大化的發(fā)揮池化的計(jì)算和存儲(chǔ)資源彈性將是未來。同時(shí)隨著AI技術(shù)的不斷深入使用,數(shù)據(jù)庫(kù)也將會(huì)越來越智能化,阿里云的目標(biāo)是實(shí)現(xiàn)數(shù)據(jù)庫(kù)的完全自動(dòng)化和智能化。
“李飛飛,現(xiàn)任阿里巴巴集團(tuán)副總裁、高級(jí)研究員,阿里云智能數(shù)據(jù)庫(kù)事業(yè)部總負(fù)責(zé)人。美國(guó)計(jì)算機(jī)協(xié)會(huì)ACM杰出科學(xué)家,加入阿里巴巴之前為美國(guó)猶他大學(xué)計(jì)算機(jī)系終身教授。研究成果多次獲得了IEEE ICDE、ACM SIGMOD最佳論文獎(jiǎng)等重要學(xué)術(shù)獎(jiǎng)項(xiàng)。他也是中國(guó)計(jì)算機(jī)協(xié)會(huì)CCF大數(shù)據(jù)專家委員會(huì)副主任、數(shù)據(jù)庫(kù)專業(yè)委員會(huì)常委。
以下是采訪實(shí)錄:
01、YourStory:數(shù)據(jù)庫(kù)技術(shù)正在發(fā)生哪些變化,這項(xiàng)技術(shù)的發(fā)展方向是什么?
李飛飛:數(shù)據(jù)庫(kù)是一項(xiàng)成熟的技術(shù),已經(jīng)存在了40年,尤其是關(guān)系型數(shù)據(jù)庫(kù)。隨著計(jì)算和數(shù)據(jù)上云的趨勢(shì)快速發(fā)展,計(jì)算和存儲(chǔ)資源池化帶來了系統(tǒng)設(shè)計(jì)的顛覆,傳統(tǒng)數(shù)據(jù)庫(kù)步履蹣跚。那么什么樣的數(shù)據(jù)庫(kù)可以在科技世界中不斷進(jìn)化獲得快速發(fā)展呢?
云計(jì)算為數(shù)據(jù)庫(kù)技術(shù)提供了很多機(jī)會(huì),目前已經(jīng)有多家云原生數(shù)據(jù)庫(kù)公司可以與 Oracle 等公司競(jìng)爭(zhēng)。云原生數(shù)據(jù)庫(kù)將是未來。云計(jì)算的本質(zhì)是存儲(chǔ)和計(jì)算等資源的虛擬化和池化。這些資源被池化,并以IaaS服務(wù)對(duì)外出售。這對(duì)系統(tǒng)設(shè)計(jì)是個(gè)本質(zhì)性的變革,因?yàn)橄到y(tǒng)的本質(zhì)就是如何安全、可靠、高效的使用有限的系統(tǒng)資源。隨著資源池化,云原生架構(gòu)可以提供更好的彈性,并且易于靈活擴(kuò)展。這也是新的云原生方向的初創(chuàng)公司激增的原因。
以前你要承受固定成本和綁定資源,但是今天你能夠以靈活成本的方式使用資源池。如果你的應(yīng)用在云上,你不但可實(shí)現(xiàn)高可用,并且停機(jī)時(shí)間為零。
現(xiàn)在說回云原生數(shù)據(jù)庫(kù)。存儲(chǔ)、網(wǎng)絡(luò)和存儲(chǔ)虛擬化是推動(dòng)云計(jì)算起飛的第一個(gè)顛覆性技術(shù),推動(dòng)了早期云計(jì)算IaaS層的蓬勃發(fā)展。技術(shù)顛覆是一層一層發(fā)生的,在那之后平臺(tái)層(PaaS)發(fā)生了許多變化,帶來了2015年前后云原生數(shù)據(jù)庫(kù)架構(gòu)與算法的出現(xiàn)。
在傳統(tǒng)數(shù)據(jù)庫(kù)中,資源(存儲(chǔ)和計(jì)算)是捆綁在一起,無法利用池化資源的強(qiáng)大潛力。阿里云的云原生數(shù)據(jù)庫(kù)PolarDB,實(shí)現(xiàn)了靈活的存儲(chǔ)計(jì)算分離。這有利于公司和企業(yè)用戶彈性的進(jìn)行存儲(chǔ)和計(jì)算資源的獨(dú)立擴(kuò)縮容。比如,你可以通過一個(gè)按鈕,自動(dòng)化管理你的資源,包括 CPU 和存儲(chǔ)等。在阿里巴巴,我們使用DAS (Database Autonomy Service)來實(shí)現(xiàn)auto scaling形式的自動(dòng)執(zhí)行和監(jiān)視工作負(fù)載,而不需要人員干預(yù)。它是隨需應(yīng)變,富有彈性的,而這意味著企業(yè)可以節(jié)省成本、提升效率。
除此之外,傳統(tǒng)的OLAP數(shù)據(jù)庫(kù)系統(tǒng)正在快速的向新一代的云原生數(shù)據(jù)倉(cāng)庫(kù)演變,對(duì)海量數(shù)據(jù)提供實(shí)時(shí)在線的交互式分析服務(wù)。
由數(shù)據(jù)庫(kù)系統(tǒng)演變而來的離線計(jì)算大數(shù)據(jù)系統(tǒng)也在和數(shù)據(jù)庫(kù)系統(tǒng)發(fā)生快速的融合,數(shù)據(jù)庫(kù)系統(tǒng)和大數(shù)據(jù)技術(shù)的融合交匯會(huì)進(jìn)一步深入發(fā)展。利用上面提到的云原生架構(gòu)來提供serverless、 存計(jì)分離、彈性高可用、高并發(fā)的在線交互式分析和計(jì)算是新一代云原生數(shù)倉(cāng)的發(fā)展方向。阿里云的AnalyticDB (ADB) 正是基于這些原理來設(shè)計(jì)和實(shí)現(xiàn)的,提供對(duì)大數(shù)據(jù)進(jìn)行高效的在線交互式分析。同時(shí),因?yàn)榛跀?shù)據(jù)庫(kù)系統(tǒng)的體系設(shè)計(jì),ADB同時(shí)還具備了支持高并寫入和ACID保證。
展望未來, OLTP和OLAP系統(tǒng)都會(huì)向著持續(xù)提升HTAP能力的方向去發(fā)展,與此同時(shí),結(jié)合shared-nothing的分布式架構(gòu)和shared-storage/shared-everything的云原生架構(gòu)會(huì)發(fā)生融合,利用云原生+分布式能力來提供下一代企業(yè)級(jí)數(shù)據(jù)庫(kù)系統(tǒng)。
02、YourStory:什么是NewSQL?
李飛飛:在行話和術(shù)語之外,我先從技術(shù)上解釋這一點(diǎn),并談?wù)剛鹘y(tǒng)的面向非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)的關(guān)系。
以前,對(duì)面向結(jié)構(gòu)化數(shù)據(jù)而設(shè)計(jì)的關(guān)系型數(shù)據(jù)庫(kù)很重要的要求是需要確保原子性、一致性、隔離性、持久性 (ACID)。這意味在數(shù)據(jù)變更時(shí),要保障一致性。為了確保性能穩(wěn)定運(yùn)行并提供隔離性,系統(tǒng)設(shè)計(jì)需要支持高吞吐量的工作負(fù)載并同時(shí)確保數(shù)據(jù)一致性和持久性。
谷歌在10多年前改變了這一切。他們相信,這種模式不能與產(chǎn)生大量數(shù)據(jù)的新應(yīng)用一起工作。世界需要的是數(shù)據(jù)庫(kù)系統(tǒng)的可用性,而不僅僅是保證持久性、一致性、原子性。現(xiàn)代企業(yè)需要一個(gè)高度可擴(kuò)展的數(shù)據(jù)庫(kù)系統(tǒng)來適應(yīng)海量數(shù)據(jù)處理,尤其是面對(duì)非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),而不是那些僅僅提供結(jié)構(gòu)化數(shù)據(jù)處理并保證ACID特性的數(shù)據(jù)庫(kù)。
10多年前面對(duì)這樣的應(yīng)用要求,以Google為代表的互聯(lián)網(wǎng)公司率先利用了部分犧牲ACID保證來?yè)Q取分布式解決方案進(jìn)行橫向擴(kuò)展。Google的三大馬車隨之應(yīng)運(yùn)而生:GFS (google file system), Google Big Table, Google MapReduce, 這也是所有大數(shù)據(jù)系統(tǒng)發(fā)展的源頭。
這也是為什么會(huì)出現(xiàn)Hadoop 這樣大數(shù)據(jù)處理系統(tǒng)的原因。這些系統(tǒng)大約在 10多年前問世,利用傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)技術(shù)和基于BSP模型的并行計(jì)算模型,但是放棄了ACID的保障,使用集群資源處理大量數(shù)據(jù), 用戶可以從 100 個(gè)節(jié)點(diǎn)擴(kuò)展到 1000 個(gè)節(jié)點(diǎn),滿足了像流量激增的電商企業(yè)一樣應(yīng)用需求。
與此同時(shí),非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的海量存儲(chǔ)和處理也蓬勃發(fā)展,衍生出來了豐富的NoSQL生態(tài)體系。隨著近些年數(shù)據(jù)處理技術(shù)的不斷發(fā)展,企業(yè)級(jí)應(yīng)用對(duì)同時(shí)滿足分布式水平拓展和一定程度上滿足ACID保障有越來越強(qiáng)烈的需求,這就催生了 NewSQL 系統(tǒng),簡(jiǎn)單來說就是把NoSQL系統(tǒng)和大數(shù)據(jù)處理技術(shù)與傳統(tǒng)的面向結(jié)構(gòu)化數(shù)據(jù)的關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)技術(shù)進(jìn)行結(jié)合,提供面對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行分布式存儲(chǔ)、水平拓展并行處理、多模查詢和分析、并提供一定程度的ACID保障。
阿里云NoSQL系統(tǒng)提供了業(yè)界領(lǐng)先的NoSQL技術(shù)并快速的提升其NewSQL能力,提供面向多源異構(gòu)非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的海量存儲(chǔ)和多模處理。
例如我們的Tair緩存系統(tǒng)(企業(yè)級(jí)Redis),多年支持雙11,提供持久化緩存和熱點(diǎn)打散能力;我們的Lindorm系統(tǒng)提供企業(yè)級(jí)HBase能力,為海量數(shù)據(jù)的冷存儲(chǔ)和高效處理提供一站式解決方案;我們的TSDB面向海量時(shí)序時(shí)空和監(jiān)控?cái)?shù)據(jù)提供AIoT的處理能力。與此同時(shí),我們也與提供NewSQL技術(shù)的業(yè)界伙伴例如文檔型數(shù)據(jù)庫(kù)MongoDB建立了戰(zhàn)略型合作伙伴關(guān)系。
03、YourStory:是否有面向數(shù)據(jù)科學(xué)家的產(chǎn)品?
李飛飛:我們的Data Lake Analytics"數(shù)據(jù)湖分析"產(chǎn)品,提供一個(gè)統(tǒng)一的交互式分析和計(jì)算接口來統(tǒng)一傳統(tǒng)和云基礎(chǔ)設(shè)施上的所有數(shù)據(jù)。
Data Lake Analytics可以將關(guān)系數(shù)據(jù)庫(kù)、NoSQL/NewSQL 數(shù)據(jù)庫(kù)、文件系統(tǒng)、OSS存儲(chǔ)系統(tǒng)等各種數(shù)據(jù)組織成為一個(gè)數(shù)據(jù)湖,并創(chuàng)建交互式分析和批量處理功能。Data Lake Analytics實(shí)現(xiàn)了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)結(jié)合的大規(guī)模處理。這有助于數(shù)據(jù)科學(xué)家使用AI和ML 算法一起處理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
除此之外,面向多源異構(gòu)數(shù)據(jù)庫(kù)實(shí)例的管理和開發(fā)流程管理,我們提供了DMS (Data Management Service), 數(shù)據(jù)管理DMS是基于阿里巴巴集團(tuán)十余年的數(shù)據(jù)庫(kù)服務(wù)平臺(tái)的云版本,提供免安裝、免運(yùn)維、即開即用、多種數(shù)據(jù)庫(kù)類型與多種環(huán)境統(tǒng)一的web數(shù)據(jù)庫(kù)管理終端;可以為企業(yè)用戶快速?gòu)?fù)制搭建與阿里集團(tuán)同等安全、高效、規(guī)范的數(shù)據(jù)庫(kù)DevOps研發(fā)流程解決方案。
阿里云還有一款叫DataWorks的產(chǎn)品,提供了大數(shù)據(jù)OS能力、并以all in one box的方式提供專業(yè)高效、安全可靠的一站式大數(shù)據(jù)智能云研發(fā)平臺(tái)。同時(shí)能滿足用戶對(duì)數(shù)據(jù)治理、質(zhì)量管理需求,賦予用戶對(duì)外提供數(shù)據(jù)服務(wù)的能力。利用這些工具和產(chǎn)品,數(shù)據(jù)科學(xué)家的工作效率得到提高,因?yàn)樗麄儾槐鼗ㄙM(fèi)太多時(shí)間去處理底層數(shù)據(jù)。
04、YourStory:AI對(duì)于你們而言意味著什么?
李飛飛:云計(jì)算改變了一切,因?yàn)樗苿?dòng)了數(shù)據(jù)的增長(zhǎng)。但是我們離真正的AI還很遠(yuǎn)。
我們今天開始使用深度神經(jīng)網(wǎng)絡(luò),但是他們需要大規(guī)模數(shù)據(jù)才能真正有用。目前基于深度學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)的AI 是一個(gè)黑盒子,離真正的通用人工智能還非常遙遠(yuǎn),但是應(yīng)用在特定場(chǎng)景下這些AI 技術(shù)已經(jīng)奏效。利用海量標(biāo)注數(shù)據(jù)和訓(xùn)練,它在模式識(shí)別、計(jì)算機(jī)視覺和語音識(shí)別等方向取得了一些進(jìn)展。現(xiàn)在,它也將影響數(shù)據(jù)庫(kù)行業(yè)。
阿里云推出的自治數(shù)據(jù)庫(kù)服務(wù)就是基于這個(gè)思路和技術(shù)路線,我們的路線圖是使數(shù)據(jù)庫(kù)的管控運(yùn)維盡可能的自動(dòng)化和智能化,同時(shí)也將AI和ML技術(shù)應(yīng)用于數(shù)據(jù)庫(kù)內(nèi)核,提升數(shù)據(jù)庫(kù)內(nèi)核的智能化程度來處理復(fù)雜的查詢優(yōu)化、內(nèi)存管理等任務(wù)。自治數(shù)據(jù)庫(kù)的復(fù)雜性將不斷提升,因?yàn)榭蛻魧?duì)于數(shù)據(jù)庫(kù)的使用存在很大的差別,這使得整個(gè)進(jìn)程的自動(dòng)化變得有些困難。
但是,我們可以將 AI 用于常見的一些應(yīng)用場(chǎng)景。例如,我們可以利用機(jī)器學(xué)習(xí)技術(shù)來自動(dòng)適應(yīng)系統(tǒng)的工作負(fù)載,改進(jìn)數(shù)據(jù)庫(kù)系統(tǒng)的資源分配和參數(shù)設(shè)置來提升系統(tǒng)延遲和吞吐,并使用機(jī)器學(xué)習(xí)算法來進(jìn)行在線實(shí)時(shí)監(jiān)控確保數(shù)據(jù)庫(kù)安全且運(yùn)行良好。
05、YourStory:工程師加入阿里巴巴時(shí)必須關(guān)注哪些未來的技術(shù)?
李飛飛:除了我上面提到的這些點(diǎn)之外,數(shù)據(jù)庫(kù)安全也是我們非常關(guān)注的話題。
我們正在建設(shè)LedgerDB將區(qū)塊鏈技術(shù)與數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行集成,這可以同步并驗(yàn)證數(shù)據(jù)和日志的完整性并提供不可篡改性。螞蟻金服和我們的云上客戶正使用區(qū)塊鏈技術(shù)跟蹤銀行和商戶之間的交易的完整性。利用安全硬件技術(shù),我們推出了全加密數(shù)據(jù)庫(kù)系統(tǒng),可以確保用戶數(shù)據(jù)在數(shù)據(jù)庫(kù)系統(tǒng)從傳輸?shù)酱鎯?chǔ)到內(nèi)核處理全程加密,進(jìn)行無解密處理、計(jì)算、和分析,這樣就能確保即使在最壞情況下數(shù)據(jù)庫(kù)系統(tǒng)遭到內(nèi)部破壞性攻擊,敏感數(shù)據(jù)也不會(huì)被泄露。
除此之外,DMS企業(yè)版提供高效保障數(shù)據(jù)安全研發(fā)流程和運(yùn)維流程管理,在保障數(shù)據(jù)庫(kù)系統(tǒng)安全的同時(shí)提升研發(fā)效率。
我們擁有強(qiáng)大和豐富的生態(tài)系統(tǒng), 開發(fā)人員不必?fù)?dān)心他們了解哪種計(jì)算機(jī)語言、使用了哪個(gè)生態(tài)的數(shù)據(jù)庫(kù)系統(tǒng), 阿里云數(shù)據(jù)庫(kù)都提供了強(qiáng)有力的支持, 因?yàn)槲覀冇肋h(yuǎn)不會(huì)在封閉的技術(shù)和生態(tài)體系中構(gòu)建我們的系統(tǒng)。如果你是數(shù)據(jù)庫(kù)或者是數(shù)據(jù)工程師,你不必學(xué)習(xí)所有的新事物,但是你一定要具備和保持學(xué)習(xí)新事物的能力和好奇心。
總結(jié)
以上是生活随笔為你收集整理的阿里云李飞飞:传统数据库步履蹒跚,未来的机会在哪里?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 亿级搜索系统的基石,如何保障实时数据质量
- 下一篇: 小姐姐亲身体验:在阿里数据库科研团队实习