clickhouse建库_专访ClickHouse创始人:数据库竞争依旧火热,技术整合势在必行
加入「公開課」交流群,獲取更多學習資料、課程及熱招崗位等信息
翻譯|鄭天祺 (Amos Bird) 中科院計算所博士
整理 | 夕顏
2000 年以來,隨著自互聯網和云計算技術變革,數據庫技術從底層計算系統開始發生一次蛻變,進入了以開源、分布式和云計算為主導的新數據庫時代。
之后,數據庫領域發生了一些巨大的變化。比如,AWS 于 2014 年推出了云原生關系型數據庫 Aurora。阿里云于 2017 年推出云原生關系型數據庫 POLARDB,并在 2019 年發布 2.0 版本。除阿里云外,其它國內云廠商也相繼推出了自研的云數據庫和分布式數據庫產品,如 2019 年 8 月,騰訊云一口氣發布了五大數據庫新品:數據庫智能管家 DBbrain、云數據庫 TBase、數據庫備份服務 DBS、云數據庫 Redis 混合存儲版,以及自研云原生數據庫 CynosDB 商業化版本,進行了一次云數據庫產品的戰略升級。
就在不久前,AWS 宣布放棄 Oracle 數據庫,遷移到自家的 RedShift、Aurora 和 DynamoDB 等本地 AWS 服務上,這一消息曾引起一片軒然大波,雖然 Oracle 創始人拉里·埃里森仍然嘴硬道沒有哪家公司能真正離得開 Oracle 數據庫產品,但是微軟、Oracle、SAP、AWS、Google、IBM 和阿里云構成的 7 強格局中各方勢力正在經歷著此消彼長的事實已無法掩藏。更多的后起之秀正在崛起,分食這塊越來越可口的數據庫市場,眼下數據庫領域的技術潮流,也在發生著微妙的變化。
今年 3 月份,DeveloperWeek 曾對數百名開發人員、工程師、軟件架構師、開發團隊和 IT 領導者進行了一次調研,以了解當前 NoSQL 與 SQL 的使用情況、最流行的數據庫。
調查結果顯示,SQL 和 NoSQL 數據庫的使用率分別為 60.48% 和 39.52%,兩者之間的差距正在縮小。
從最受歡迎數據庫的調查結果中可以看到,榜單的前三甲被 MySQL、MongoDB、PostgreSQL(17.4%)占據,緊隨其后的是份額驟然縮小的Redis(8.4%)和 Cassandra(3.0%),而 Oracle 的份額僅為 1.8%。
另外,在過去 30 年中,PostgreSQL 的流行度卻迅速飆升。根據 DB-Engines 的《DBMS of the Year》報告,PostgreSQL 已經連續兩年蟬聯世界“成長”最快數據庫。
雖然開源數據庫的前 3 名被 MySQL、MongoDB 和 PostgreSQL 占據,但值得注意的是,一家由俄羅斯最大的搜索引擎巨頭 Yandex 推出的列數據庫產品 Clickhouse,和 Galera、Memcached 及 HBase 等占據了最受歡迎數據庫的最后 2% 的份額。
雖然占比并不大,但是自從 2016 年開源以來,Clickhouse 便成為一匹“黑馬”,它抗得住日數十億數據更新和近百萬次數據請求,并可秒出查詢結果,憑借因其快速處理能力,迅速獲得用戶的青睞。
近年來,全球數據庫領域發生了哪些技術和應用上的變革?在這些變革背后隱藏著什么樣的發展趨勢和潮流?未來,數據庫技術和應用又將朝著什么方向發展?
在由中國計算機學會主辦,CCF 大數據專家委員會承辦,CSDN、中科天璣協辦的中國大數據技術大會(BDTC 2019)上,AI 科技大本營(ID:rgznai100)有幸邀請到 ClickHouse 項目的創始人兼 ClickHouse 開源社區創始人 Alexey Milovidov 來到現場進行了主題分享,并在會前與他進行了一次簡短的交流,以進一步了解 ClickHouse 產品的具體情況,Alexey 還以自己從事數據庫管理系統十多年的經驗,為我們回顧了大數據領域的技術和應用進展脈絡,以及未來發展的方向。
以下為采訪實錄:
AI科技大本營:您好,首先請介紹一下您自己,以及您現在關注哪些技術領域?
Alexey Milovidov:我一直在做 ClickHouse 開發和大數據實時分析技術,將來也會專注于這塊。
AI科技大本營:請您談一談,最近10年,您親身經歷了大數據技術和行業發生了哪些變化?
Alexey Milovidov:我經歷了數據庫從 NoSQL 到 Not Only SQL,再到 NewSQL 的演變,數據庫具備了更多的能力。雖然不斷有新的形勢出現,但是技術在不斷地融合,包括傳統的系統也在吸收新的系統技術。如 MongoDB 的技術已經被一些傳統的數據庫包括 MySQL 等吸納進去了。
AI科技大本營:ClickHouse 在這個演變的過程中扮演了什么角色?
Alexey Milovidov:首先,ClickHouse 更像是一種專用系統,它以性能為目標,聚焦于以最快的速度高效地執行任務。不同于傳統 OLTP 或文件型系統等,ClickHouse 設計之初就是一個分析型數據庫,并努力做到極致。
在轉變過程中,數據庫和機器學習更好地結合起來了,未來數據庫將會更多地與 AI 結合,有時可以直接在你的系統中運行機器學習模型,把原來傳統的技術運用在當前數據時代的一些 AI 技術上。為了更好地結合,Yandex 開源了一些產品,包括 ClickHouse、CatBoost。CatBoost 是一個整合在 ClickHouse 中的機器學習庫,可以訓練模型并直接應用存儲在 ClickHouse 中的數據。
AI科技大本營:在從 IT 向 DT 時代的轉換過程中,產品和技術得以飛速發展,大數據行業的現狀或痛點發生了哪些變化?
Alexey Milovidov:一方面是整合,另一方面是為用戶提供更易用的工具,盡可能讓用戶能低成本直接使用而不需要編程,也許用戶還可以用不同的方法進行查詢,比如當用戶點擊網頁時,任何人都可以用自然語言進行查詢,而不是一定要用 SQL。第二個挑戰是如何用 AI 進行數據庫自動優化。另一個挑戰是數據庫和專用硬件設備的整合,比如使用 GPU、TPU、存儲可編程 SSD 等。
AI科技大本營:HTAP (Hybrid Transaction and Analytical Process,混合事務和分析處理) 是Gartner近年來提出的一個概念,最近比較時髦,有人認為它將成為未來大數據技術發展的主流,您怎么看待這一說法?
Alexey Milovidov:現在 HTAP 系統還是一個權宜之計,結合了 TP 和 AP 的功能,性能也還湊合,但現在專門的分析系統比 HTAP 做得更好,它只能算是一種權宜之計,但是將來有可能會有突破。
AI科技大本營:應該如何進行改進以取得突破?
Alexey Milovidov:也許可以復制不同的數據結構,現在可以利用多副本機制,即異構副本機制存儲兩份不同的數據結構,一份面向于事務類型的存儲,一份面向于分析型類型存儲。當然這是一個很難的事情,但是通過復雜的工程實現這一點,也能達到很好的效果。這其中還有一個挑戰,分析系統的數據處理量巨大,但是現在新硬件,包括非易失性存儲和專用計算芯片等硬件加速設備,使得之前的一些設計變得可能。
AI科技大本營:Yandex 是否有類似于 HTAP 的產品應用?
Alexey Milovidov:去年,Yandex 推出了一款產品專用于 Yandex 云數據庫的產品,叫做 Yandex Database,就是為了 HTAP 而推出的。
AI科技大本營:請您用簡單易懂的話解釋一下 ClickHouse 及其特性,和其他相似產品相比最大的優勢體現在哪里?
Alexey Milovidov:ClickHouse是一個免費的面向事件處理的分析型數據庫系統,它最大的特點就是快,俄文中 ClickHouse 就有快速的意思,它可以讓用戶快速進行大量查詢而不減慢速度。
AI科技大本營:ClickHouse由于其特性受到很多企業和個人用戶的青睞,但是同時也有一些不完美的地方,比如不支持事務,不支持Update/Delete操作,支持有限的系統等,將來發布的新版本會改善這些點嗎?
Alexey Milovidov:ClickHouse 不僅是開源的,未來也有改進的計劃,來年有望支持事務以及更好的Update/Delete 操作,并支持更多的系統。關于 2020 年的更多詳細計劃,可以查看這個項目的 GitHub 。
Github地址:
https://github.com/ClickHouse/ClickHouse/blob/master/docs/ru/extended_roadmap.md
AI科技大本營:2016年,ClickHouse 中文社區就已經成立了,近年來發展勢頭比較迅猛,未來ClickHouse在中國有哪些相關部署與規劃?
Alexey Milovidov:明年,我們可能將會在杭州、廣州、南京等城市進行更多的 Meet Up,并同時與字節跳動等中國企業接觸。另外,今年新年期間,可能還有一些針對本地化的有人文情懷的設計推出,帶給用戶一些小驚喜。
AI科技大本營:您所關注的技術領域最近有哪些研究或應用的新趨勢?可以解決現在大數據領域的哪些問題?
Alexey Milovidov:第一,數據庫技術將與 AI 技術將有更多的結合;第二,整合專用硬件加速設備;第三,不同新興數據庫領域的融合,TP 和 AP 將會有更多融合。這些趨勢將會解決迅速增長的數據量帶來的挑戰,更好的硬件也能更有效地解決問題,并讓用戶更簡單地使用關系型數據庫。
AI科技大本營:未來,數據庫領域將會發生什么變化?比如非關系型數據庫的市場份額將繼續增長甚至超過關系型數據庫嗎?您對數據庫領域未來的發展有哪些展望?
Alexey Milovidov:SQL 還將繼續是主流語言,但是會改進,進行更多拓展,變成一個更專業的系統,市場會更大,而 NoSQL 將縮小與 SQL 之間的差距,市場對它仍有需求。在數據庫領域,將來可能會更多地與多領域進行整合,比如用 AI 輔助設計,進行時序分析等。另外,盡可能讓當前的數據庫系統能夠存儲各式各樣的數據,包括現在很多的物聯網數據傳感器、圖片、音像、地理信息等信息。之前我們是沒有考慮過這些的,但現在有這樣的發展趨勢。
采訪嘉賓:Alexey Milovidov,俄羅斯 Yandex 公司 ClickHouse 開源社區創始人,ClickHouse 項目的創始人,這是一個開源的分析數據庫管理系統。2008 年畢業于莫斯科國立大學力學與數學系,獲數學專業學位。此后,他在 Yandex LLC 工作,領導 Yandex Metrica(類似于谷歌 Analytics 和百度統計)引擎開發團隊和 ClickHouse 開發團隊。他有 11 年 C++ 編程語言開發專用數據結構的經驗。
(*本文為AI科技大本營原創文章,轉載請微信聯系 1092722531)
總結
以上是生活随笔為你收集整理的clickhouse建库_专访ClickHouse创始人:数据库竞争依旧火热,技术整合势在必行的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ol xyz 加载天地图_OpenLay
- 下一篇: sql 百分号_SQL思维导图和代码分享