clickhouse建库_专访ClickHouse创始人:数据库竞争依旧火热,技术整合势在必行
加入「公開課」交流群,獲取更多學(xué)習(xí)資料、課程及熱招崗位等信息
翻譯|鄭天祺 (Amos Bird) 中科院計(jì)算所博士
整理 | 夕顏
2000 年以來,隨著自互聯(lián)網(wǎng)和云計(jì)算技術(shù)變革,數(shù)據(jù)庫技術(shù)從底層計(jì)算系統(tǒng)開始發(fā)生一次蛻變,進(jìn)入了以開源、分布式和云計(jì)算為主導(dǎo)的新數(shù)據(jù)庫時(shí)代。
之后,數(shù)據(jù)庫領(lǐng)域發(fā)生了一些巨大的變化。比如,AWS 于 2014 年推出了云原生關(guān)系型數(shù)據(jù)庫 Aurora。阿里云于 2017 年推出云原生關(guān)系型數(shù)據(jù)庫 POLARDB,并在 2019 年發(fā)布 2.0 版本。除阿里云外,其它國內(nèi)云廠商也相繼推出了自研的云數(shù)據(jù)庫和分布式數(shù)據(jù)庫產(chǎn)品,如 2019 年 8 月,騰訊云一口氣發(fā)布了五大數(shù)據(jù)庫新品:數(shù)據(jù)庫智能管家 DBbrain、云數(shù)據(jù)庫 TBase、數(shù)據(jù)庫備份服務(wù) DBS、云數(shù)據(jù)庫 Redis 混合存儲(chǔ)版,以及自研云原生數(shù)據(jù)庫 CynosDB 商業(yè)化版本,進(jìn)行了一次云數(shù)據(jù)庫產(chǎn)品的戰(zhàn)略升級(jí)。
就在不久前,AWS 宣布放棄 Oracle 數(shù)據(jù)庫,遷移到自家的 RedShift、Aurora 和 DynamoDB 等本地 AWS 服務(wù)上,這一消息曾引起一片軒然大波,雖然 Oracle 創(chuàng)始人拉里·埃里森仍然嘴硬道沒有哪家公司能真正離得開 Oracle 數(shù)據(jù)庫產(chǎn)品,但是微軟、Oracle、SAP、AWS、Google、IBM 和阿里云構(gòu)成的 7 強(qiáng)格局中各方勢(shì)力正在經(jīng)歷著此消彼長(zhǎng)的事實(shí)已無法掩藏。更多的后起之秀正在崛起,分食這塊越來越可口的數(shù)據(jù)庫市場(chǎng),眼下數(shù)據(jù)庫領(lǐng)域的技術(shù)潮流,也在發(fā)生著微妙的變化。
今年 3 月份,DeveloperWeek 曾對(duì)數(shù)百名開發(fā)人員、工程師、軟件架構(gòu)師、開發(fā)團(tuán)隊(duì)和 IT 領(lǐng)導(dǎo)者進(jìn)行了一次調(diào)研,以了解當(dāng)前 NoSQL 與 SQL 的使用情況、最流行的數(shù)據(jù)庫。
調(diào)查結(jié)果顯示,SQL 和 NoSQL 數(shù)據(jù)庫的使用率分別為 60.48% 和 39.52%,兩者之間的差距正在縮小。
從最受歡迎數(shù)據(jù)庫的調(diào)查結(jié)果中可以看到,榜單的前三甲被 MySQL、MongoDB、PostgreSQL(17.4%)占據(jù),緊隨其后的是份額驟然縮小的Redis(8.4%)和 Cassandra(3.0%),而 Oracle 的份額僅為 1.8%。
另外,在過去 30 年中,PostgreSQL 的流行度卻迅速飆升。根據(jù) DB-Engines 的《DBMS of the Year》報(bào)告,PostgreSQL 已經(jīng)連續(xù)兩年蟬聯(lián)世界“成長(zhǎng)”最快數(shù)據(jù)庫。
雖然開源數(shù)據(jù)庫的前 3 名被 MySQL、MongoDB 和 PostgreSQL 占據(jù),但值得注意的是,一家由俄羅斯最大的搜索引擎巨頭 Yandex 推出的列數(shù)據(jù)庫產(chǎn)品 Clickhouse,和 Galera、Memcached 及 HBase 等占據(jù)了最受歡迎數(shù)據(jù)庫的最后 2% 的份額。
雖然占比并不大,但是自從 2016 年開源以來,Clickhouse 便成為一匹“黑馬”,它抗得住日數(shù)十億數(shù)據(jù)更新和近百萬次數(shù)據(jù)請(qǐng)求,并可秒出查詢結(jié)果,憑借因其快速處理能力,迅速獲得用戶的青睞。
近年來,全球數(shù)據(jù)庫領(lǐng)域發(fā)生了哪些技術(shù)和應(yīng)用上的變革?在這些變革背后隱藏著什么樣的發(fā)展趨勢(shì)和潮流?未來,數(shù)據(jù)庫技術(shù)和應(yīng)用又將朝著什么方向發(fā)展?
在由中國計(jì)算機(jī)學(xué)會(huì)主辦,CCF 大數(shù)據(jù)專家委員會(huì)承辦,CSDN、中科天璣協(xié)辦的中國大數(shù)據(jù)技術(shù)大會(huì)(BDTC 2019)上,AI 科技大本營(ID:rgznai100)有幸邀請(qǐng)到 ClickHouse 項(xiàng)目的創(chuàng)始人兼 ClickHouse 開源社區(qū)創(chuàng)始人 Alexey Milovidov 來到現(xiàn)場(chǎng)進(jìn)行了主題分享,并在會(huì)前與他進(jìn)行了一次簡(jiǎn)短的交流,以進(jìn)一步了解 ClickHouse 產(chǎn)品的具體情況,Alexey 還以自己從事數(shù)據(jù)庫管理系統(tǒng)十多年的經(jīng)驗(yàn),為我們回顧了大數(shù)據(jù)領(lǐng)域的技術(shù)和應(yīng)用進(jìn)展脈絡(luò),以及未來發(fā)展的方向。
以下為采訪實(shí)錄:
AI科技大本營:您好,首先請(qǐng)介紹一下您自己,以及您現(xiàn)在關(guān)注哪些技術(shù)領(lǐng)域?
Alexey Milovidov:我一直在做 ClickHouse 開發(fā)和大數(shù)據(jù)實(shí)時(shí)分析技術(shù),將來也會(huì)專注于這塊。
AI科技大本營:請(qǐng)您談一談,最近10年,您親身經(jīng)歷了大數(shù)據(jù)技術(shù)和行業(yè)發(fā)生了哪些變化?
Alexey Milovidov:我經(jīng)歷了數(shù)據(jù)庫從 NoSQL 到 Not Only SQL,再到 NewSQL 的演變,數(shù)據(jù)庫具備了更多的能力。雖然不斷有新的形勢(shì)出現(xiàn),但是技術(shù)在不斷地融合,包括傳統(tǒng)的系統(tǒng)也在吸收新的系統(tǒng)技術(shù)。如 MongoDB 的技術(shù)已經(jīng)被一些傳統(tǒng)的數(shù)據(jù)庫包括 MySQL 等吸納進(jìn)去了。
AI科技大本營:ClickHouse 在這個(gè)演變的過程中扮演了什么角色?
Alexey Milovidov:首先,ClickHouse 更像是一種專用系統(tǒng),它以性能為目標(biāo),聚焦于以最快的速度高效地執(zhí)行任務(wù)。不同于傳統(tǒng) OLTP 或文件型系統(tǒng)等,ClickHouse 設(shè)計(jì)之初就是一個(gè)分析型數(shù)據(jù)庫,并努力做到極致。
在轉(zhuǎn)變過程中,數(shù)據(jù)庫和機(jī)器學(xué)習(xí)更好地結(jié)合起來了,未來數(shù)據(jù)庫將會(huì)更多地與 AI 結(jié)合,有時(shí)可以直接在你的系統(tǒng)中運(yùn)行機(jī)器學(xué)習(xí)模型,把原來傳統(tǒng)的技術(shù)運(yùn)用在當(dāng)前數(shù)據(jù)時(shí)代的一些 AI 技術(shù)上。為了更好地結(jié)合,Yandex 開源了一些產(chǎn)品,包括 ClickHouse、CatBoost。CatBoost 是一個(gè)整合在 ClickHouse 中的機(jī)器學(xué)習(xí)庫,可以訓(xùn)練模型并直接應(yīng)用存儲(chǔ)在 ClickHouse 中的數(shù)據(jù)。
AI科技大本營:在從 IT 向 DT 時(shí)代的轉(zhuǎn)換過程中,產(chǎn)品和技術(shù)得以飛速發(fā)展,大數(shù)據(jù)行業(yè)的現(xiàn)狀或痛點(diǎn)發(fā)生了哪些變化?
Alexey Milovidov:一方面是整合,另一方面是為用戶提供更易用的工具,盡可能讓用戶能低成本直接使用而不需要編程,也許用戶還可以用不同的方法進(jìn)行查詢,比如當(dāng)用戶點(diǎn)擊網(wǎng)頁時(shí),任何人都可以用自然語言進(jìn)行查詢,而不是一定要用 SQL。第二個(gè)挑戰(zhàn)是如何用 AI 進(jìn)行數(shù)據(jù)庫自動(dòng)優(yōu)化。另一個(gè)挑戰(zhàn)是數(shù)據(jù)庫和專用硬件設(shè)備的整合,比如使用 GPU、TPU、存儲(chǔ)可編程 SSD 等。
AI科技大本營:HTAP (Hybrid Transaction and Analytical Process,混合事務(wù)和分析處理) 是Gartner近年來提出的一個(gè)概念,最近比較時(shí)髦,有人認(rèn)為它將成為未來大數(shù)據(jù)技術(shù)發(fā)展的主流,您怎么看待這一說法?
Alexey Milovidov:現(xiàn)在 HTAP 系統(tǒng)還是一個(gè)權(quán)宜之計(jì),結(jié)合了 TP 和 AP 的功能,性能也還湊合,但現(xiàn)在專門的分析系統(tǒng)比 HTAP 做得更好,它只能算是一種權(quán)宜之計(jì),但是將來有可能會(huì)有突破。
AI科技大本營:應(yīng)該如何進(jìn)行改進(jìn)以取得突破?
Alexey Milovidov:也許可以復(fù)制不同的數(shù)據(jù)結(jié)構(gòu),現(xiàn)在可以利用多副本機(jī)制,即異構(gòu)副本機(jī)制存儲(chǔ)兩份不同的數(shù)據(jù)結(jié)構(gòu),一份面向于事務(wù)類型的存儲(chǔ),一份面向于分析型類型存儲(chǔ)。當(dāng)然這是一個(gè)很難的事情,但是通過復(fù)雜的工程實(shí)現(xiàn)這一點(diǎn),也能達(dá)到很好的效果。這其中還有一個(gè)挑戰(zhàn),分析系統(tǒng)的數(shù)據(jù)處理量巨大,但是現(xiàn)在新硬件,包括非易失性存儲(chǔ)和專用計(jì)算芯片等硬件加速設(shè)備,使得之前的一些設(shè)計(jì)變得可能。
AI科技大本營:Yandex 是否有類似于 HTAP 的產(chǎn)品應(yīng)用?
Alexey Milovidov:去年,Yandex 推出了一款產(chǎn)品專用于 Yandex 云數(shù)據(jù)庫的產(chǎn)品,叫做 Yandex Database,就是為了 HTAP 而推出的。
AI科技大本營:請(qǐng)您用簡(jiǎn)單易懂的話解釋一下 ClickHouse 及其特性,和其他相似產(chǎn)品相比最大的優(yōu)勢(shì)體現(xiàn)在哪里?
Alexey Milovidov:ClickHouse是一個(gè)免費(fèi)的面向事件處理的分析型數(shù)據(jù)庫系統(tǒng),它最大的特點(diǎn)就是快,俄文中 ClickHouse 就有快速的意思,它可以讓用戶快速進(jìn)行大量查詢而不減慢速度。
AI科技大本營:ClickHouse由于其特性受到很多企業(yè)和個(gè)人用戶的青睞,但是同時(shí)也有一些不完美的地方,比如不支持事務(wù),不支持Update/Delete操作,支持有限的系統(tǒng)等,將來發(fā)布的新版本會(huì)改善這些點(diǎn)嗎?
Alexey Milovidov:ClickHouse 不僅是開源的,未來也有改進(jìn)的計(jì)劃,來年有望支持事務(wù)以及更好的Update/Delete 操作,并支持更多的系統(tǒng)。關(guān)于 2020 年的更多詳細(xì)計(jì)劃,可以查看這個(gè)項(xiàng)目的 GitHub 。
Github地址:
https://github.com/ClickHouse/ClickHouse/blob/master/docs/ru/extended_roadmap.md
AI科技大本營:2016年,ClickHouse 中文社區(qū)就已經(jīng)成立了,近年來發(fā)展勢(shì)頭比較迅猛,未來ClickHouse在中國有哪些相關(guān)部署與規(guī)劃?
Alexey Milovidov:明年,我們可能將會(huì)在杭州、廣州、南京等城市進(jìn)行更多的 Meet Up,并同時(shí)與字節(jié)跳動(dòng)等中國企業(yè)接觸。另外,今年新年期間,可能還有一些針對(duì)本地化的有人文情懷的設(shè)計(jì)推出,帶給用戶一些小驚喜。
AI科技大本營:您所關(guān)注的技術(shù)領(lǐng)域最近有哪些研究或應(yīng)用的新趨勢(shì)?可以解決現(xiàn)在大數(shù)據(jù)領(lǐng)域的哪些問題?
Alexey Milovidov:第一,數(shù)據(jù)庫技術(shù)將與 AI 技術(shù)將有更多的結(jié)合;第二,整合專用硬件加速設(shè)備;第三,不同新興數(shù)據(jù)庫領(lǐng)域的融合,TP 和 AP 將會(huì)有更多融合。這些趨勢(shì)將會(huì)解決迅速增長(zhǎng)的數(shù)據(jù)量帶來的挑戰(zhàn),更好的硬件也能更有效地解決問題,并讓用戶更簡(jiǎn)單地使用關(guān)系型數(shù)據(jù)庫。
AI科技大本營:未來,數(shù)據(jù)庫領(lǐng)域?qū)?huì)發(fā)生什么變化?比如非關(guān)系型數(shù)據(jù)庫的市場(chǎng)份額將繼續(xù)增長(zhǎng)甚至超過關(guān)系型數(shù)據(jù)庫嗎?您對(duì)數(shù)據(jù)庫領(lǐng)域未來的發(fā)展有哪些展望?
Alexey Milovidov:SQL 還將繼續(xù)是主流語言,但是會(huì)改進(jìn),進(jìn)行更多拓展,變成一個(gè)更專業(yè)的系統(tǒng),市場(chǎng)會(huì)更大,而 NoSQL 將縮小與 SQL 之間的差距,市場(chǎng)對(duì)它仍有需求。在數(shù)據(jù)庫領(lǐng)域,將來可能會(huì)更多地與多領(lǐng)域進(jìn)行整合,比如用 AI 輔助設(shè)計(jì),進(jìn)行時(shí)序分析等。另外,盡可能讓當(dāng)前的數(shù)據(jù)庫系統(tǒng)能夠存儲(chǔ)各式各樣的數(shù)據(jù),包括現(xiàn)在很多的物聯(lián)網(wǎng)數(shù)據(jù)傳感器、圖片、音像、地理信息等信息。之前我們是沒有考慮過這些的,但現(xiàn)在有這樣的發(fā)展趨勢(shì)。
采訪嘉賓:Alexey Milovidov,俄羅斯 Yandex 公司 ClickHouse 開源社區(qū)創(chuàng)始人,ClickHouse 項(xiàng)目的創(chuàng)始人,這是一個(gè)開源的分析數(shù)據(jù)庫管理系統(tǒng)。2008 年畢業(yè)于莫斯科國立大學(xué)力學(xué)與數(shù)學(xué)系,獲數(shù)學(xué)專業(yè)學(xué)位。此后,他在 Yandex LLC 工作,領(lǐng)導(dǎo) Yandex Metrica(類似于谷歌 Analytics 和百度統(tǒng)計(jì))引擎開發(fā)團(tuán)隊(duì)和 ClickHouse 開發(fā)團(tuán)隊(duì)。他有 11 年 C++ 編程語言開發(fā)專用數(shù)據(jù)結(jié)構(gòu)的經(jīng)驗(yàn)。
(*本文為AI科技大本營原創(chuàng)文章,轉(zhuǎn)載請(qǐng)微信聯(lián)系 1092722531)
總結(jié)
以上是生活随笔為你收集整理的clickhouse建库_专访ClickHouse创始人:数据库竞争依旧火热,技术整合势在必行的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ol xyz 加载天地图_OpenLay
- 下一篇: sql 百分号_SQL思维导图和代码分享