企业里大数据都是用什么数据库存储?
某乎回答如下:
企業用什么樣的數據庫存儲大數據,關鍵要看這些數據的結構和應用場景,具體問題具體分析,最終找到與之匹配的數據庫。
?SQL/NoSQL/NewSQL數據庫數據量—實時性分布圖
回答這個問題,我想從目前常見的SQL、NoSQL和NewSQL,這三大類數據庫說起。
眾所周知,SQL(或稱OldSQL)數據庫就是傳統關系型數據庫(RDBMS),它們的特點是“標準統一”:
使用統一的SQL語言
堅持統一的ACID標準
支持統一的開發模式
這讓絕大多數使用者可以在不同SQL數據庫系統之間自如切換。但它最大的不足就是難以擴展,大吞吐性能也有限。例如,在通信領域,僅一個省級運營商每日處理的離線數據量便可達到100TB以上,實時數據上千億條,如此大的總量和增量,如果不能做到靈活擴展,那么系統的生命周期將極為短暫,項目的總成本將會直線增長。
NoSQL數據庫是非關系型數據庫,它彌補了SQL數據庫在一些場景下的不足,便于存儲非結構化數據,同時具有高性能、高可用性、高伸縮性的特點。可是,利弊之間總要有所平衡:
不支持ACID,僅保證“最終一致性”
沒有通用的查詢語言
細分類型眾多,彼此間無法兼容
因此,現實中往往會選擇NoSQL+SQL的模式,共同搭建系統的數據層。
NewSQL數據庫既保留了SQL數據庫對SQL語句和ACID的支持,又兼具NoSQL數據庫高性能、高擴展的特性。其中比較常見的是MPP數據庫,它是一種采用Shared Nothing架構的分布式并行結構化數據庫,這種架構中的每個節點都是獨立平等的,且整個系統中不存在單點瓶頸,因此具有非常強的擴展性,日漸成為市場的新寵。
?SQL、NoSQL、NewSQL對比
在MPP數據庫出現以前,數據密集型企業大多選用國外的商用數據庫。它們雖然性能優越,但價格昂貴。同時,由于大多數行業仍以結構化數據和事務型運算(OLTP)為主,因此它們很難轉向使用NoSQL數據庫。所以,MPP數據庫的出現顯然為他們提供了一個兩全其美的方案。而近年來“去IOE”的趨勢使得不少企業都傾向于選擇一款國產MPP數據庫。
這就要提一下金融行業對數據庫的選擇過程,因為它正是國內眾多企業數據庫選型之路的一個縮影。在21世紀初,國有大型銀行開始規劃并建設各自的數據倉庫。比如某國有銀行選擇了Sybase IQ,這是當時為數不多的可以支撐海量數據高效查詢的數據庫產品。可隨著業務分析(OLAP)需求的增加,原有系統的處理性能已達到極限,數倉的擴展性成為系統發展的瓶頸。于是,他們開始注意到MPP數據庫,并認識到這種架構能支撐未來業務數據的極速增長,同時性價比高、運行可靠。最終,他們選擇了南大通用的GBase 8a MPP數據庫(下文簡稱為GBase)[1]。
根據GBase的官網顯示,該銀行數倉集群達到1400+個節點,總數據量已達28PB;同時,每天都會有5000多個復雜作業在數倉內運行。
支撐這個規模的數倉,對任何一個數據庫產品來說都是個挑戰。沒有金剛鉆,可攬不了瓷器活,這足以證明GBase在應對海量數據存儲、處理方面的強大實力。
此外,正如剛才所提到的,銀行內部還有相當一部分數據分析的需求,比如銀行的風控分析。按照要求,銀行必須對大額、可疑交易進行篩選、判斷、報告。篩選“大額交易”還算簡單,邏輯上用SQL語句基本就能實現。雖然交易數據很多,但這對于成熟的數據庫產品而言,也并非難事。
而判斷“可疑交易”的難度可就大了。要知道,按照規定,單日累計現金存取款超過5萬元就算大額交易了,如此算來,每天的大額交易筆數估計也是個不小的數目。如果每筆大額交易都要人工判斷的話,那這顯然是個“不可能的任務”。因此,風控系統中都含有大量專業的篩選、甄別模型,用來自動識別可疑行為。這些模型所分析的不單單是某筆大額交易本身,而是全面分析這筆交易上下游資金鏈、歷史交易、交易雙方身份等等一系列數據,最終借助AI模型辨別出是否是可疑交易。
顯然,在PB級數據庫中進行如此復雜的關聯分析,對數據庫稍有了解的人都清楚,這對數據庫的讀寫性能、并發能力都是相當嚴峻的考驗。值得一提的是,某國有銀行風控系統實現了2500萬筆交易量實時重點監測的技術創新,成為國內首個重點實時監測系統,得到了上級主管部門的肯定[2]。GBase在分析運算方面經受住了嚴苛業務場景的考驗。
其實除了在金融行業,GBase在通信、能源、政府等行業都具有廣泛的應用,它的能力得到了業界的認可,很多特性都讓人眼前一亮:
比如它內置了十余種數據壓縮算法,以此實現了1:20的高壓縮比,有效節省存儲資源,降低磁盤IO。
比如它采用粗粒度的智能索引,以數據包為單位(有別于傳統的行索引),索引占用空間少,檢索效率高。
聯手第三代英特爾至強可擴展處理器后,GBase更是如虎添翼,一舉沖上TPC-DS榜單前三名。并在單項指標中,GBase的節點數量最少,單節點算力最高,加載性能最優。
?TPC-DS測評結果
這一優異的成績除GBase自身不俗的實力外,也得益于第三代英特爾至強可擴展處理器的助力。該處理器單片最多可達40核,與上一代相比,其性能、吞吐量和主頻都顯著提高。特別是該處理器內置的AI加速功能,最高可以提供高達74%的加速水平,并在虛擬化、5G、數據庫、數據分析能方面均表現得十分出色。
第三代英特爾至強可擴展處理器負載性能
在Decision Support Benchmark負載測試中,其他配置不變,僅CPU升級到第三代至強處理器的情況下,GBase的性能就大幅提升了42%。由此可見,第三代英特爾至強可擴展處理器有效提升了GBase的性能,使其可以用更少的IO時間支撐更多的并發用戶,提高數據分析速度。并且由于單服務器節點性能的顯著提升,GBase能夠在單位節點中支撐更多的應用實例,進而減少相應的總擁有成本(TCO)。
關于英特爾第三代至強可擴展處理器的更多技術細節,我在之前的回答和視頻里做過詳細解讀,有興趣的朋友可以看看。
總而言之,企業在選擇數據庫這個問題上,不能盲目跟風,一味追求市場上“貴”的、“熱”的產品,而是應該從自身實際情況出發,綜合考慮業務需求、產品性能、性價比等因素,有針對性地做出選擇。
知名KOL回答如下:
數據庫是互聯網時代企業早期應用的核心,當數據洪流襲來,數據應用也滲透到技術、業務等各個層面時,企業在面對數據存儲及分析時也面臨著一些新的挑戰。尤其是金融行業的數據存儲問題,業務增長和拓展往往伴隨著海量的結構化數據處理,再加上金融行業對數據存儲在安全、效率、合規等多方面的要求,傳統的數據庫已經很難滿足金融行業業務發展需求。
目前國內大數據領域快速發展,國產數據庫的崛起已成必然之勢。在這樣的背景下,南大通用自主研發的GBase 8a脫穎而出,它是一款大規模分布式并行處理(MPP)數據庫集群系統,面向海量數據查詢分析應用,可以滿足結構化數據的存儲、分析、挖掘、備份等多種需求,可以有效支撐起金融行業業務拓展的需求。(點擊下方鏈接進入南大通用專區了解更多平臺方案詳情)
首先來說,金融行業由于自身特殊的行業屬性,在發展過程中會面臨結構化數據的飛速增長,其數據庫應用主要面臨以下四個難點:一是數據多樣化且迅速爆發,數據分析及吞吐量出現瓶頸;二是TCO快速攀升,快速膨脹的數據庫系統帶來了對于云與數據中心基礎設施的旺盛需求,推動了總體擁有成本(TCO)的快速攀升;三是數據存儲IO效率低,難以支撐企業內部協作展開;四是數據安全,這是金融行業中備受關注的問題,企業用戶在選擇數據庫時不僅要考慮性能、時延等因素,還要對數據存儲的安全性及容災能力進行評價,特別是在業務進行數據分析時對數據權限的把控。
再看南大通用GBase 8a數據庫產品。這是一個大規模分布式并行處理(MPP)數據庫集群系統,相比于傳統數據庫,GBase 8a在結構化數據的處理上具備突出優勢,支持從數TB到數十PB的數據集。這主要得益于GBase 8a強大的擴展性。GBase 8a的每一個服務器使用的均是本地資源,基于節點對等扁平架構,讓GBase 8a的橫向擴展能力大幅增強。同時,集群計算性能和存儲容量能夠跟隨集群擴展呈現線性增加。
GBase 8a同樣具備新型的列存儲引擎、高數據存儲壓縮比、免維護的粗粒度索引及多實例部署等多項大數據處理技術。在MPP高效分布式計算模式下,結合分布式智能優化器,GBase 8a能夠完成對PB級結構化數據分析類應用的支撐。
CPU是數據庫系統整體性能發揮的核心,基于GBase 8a的英特爾精選解決方案可充分發揮英特爾至強可擴展處理器的性能優勢,隨著第三代英特爾?至強?可擴展處理器的推出,方案升級后GBase8a的性能表現再次增強,業務運行效率隨之提高。
第三代英特爾?至強?可擴展處理器在性能和功能方面均有大幅提升,具體來看主要有三點:一是對于數據庫應用而言,第三代英特爾?至強?可擴展處理器最新的微架構以及核心數量的增加,是推動數據庫性能實現增長的關鍵,有助加速IO密集型負載的處理,在同等的服務器數量前提下,實現性能的顯著增長;二是第三代英特爾?至強?可擴展處理器提供了8個插槽配置的多插槽內核計數密度,每個處理器最多可達40個核心,與第二代英特爾至強可擴展處理器相比,性能、吞吐量和CPU頻率顯著提高,在主流數據中心工作負載上性能平均提升46%;三是第三代英特爾?至強?可擴展處理器增加了數項全新的增強型平臺功能,針對云、人工智能、高性能計算、網絡、安全和物聯網工作負載進行優化,在處理20種主流機器學習、深度學習工作負載時,第三代英特爾?至強?可擴展處理器能夠帶來高于其他CPU 1.5倍的性能提升。且其新增了PCIe-Gen4 支持,增加了內存帶寬,每路處理器內存容量達6TB,還增加了AVX-512指令。
當然,英特爾全面的產品及技術有效支撐了數據庫產品的創新。其英特爾?傲騰?持久內存的兩種運行模式——內存模式和App Direct模式,可以通過多種方式提高數據庫性能。英特爾?傲騰?持久內存的內存模式可用于降低緩存層成本,而App Direct 模式則是提供高速大批量數據存儲能力,通過優化數據存儲,從而提高數據庫中的讀寫速度。實際產品應用中,搭配傲騰固態盤P5800X/P5801X,能夠提升單服務器的可擴展性,實現數據庫加速、寫入緩存、高性能分層等功能,讓用戶在部署數據集時更加便利。
未來企業發展存算分離,結構化、半結構化、非結構化等多種結構數據并存。南大通用GBase 8a借助英特爾在核心性能、硬件組合及軟件優化方面的支持,將傳統業務結構化數據存儲革新,并不斷提升數據庫性能,為企業用戶的數字化轉型打造堅實基石。隨著大數據行業的演進,全新的數據庫解決方案將會應用到越來越多的行業,推動數字經濟的建設。
?
總結
以上是生活随笔為你收集整理的企业里大数据都是用什么数据库存储?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【汇编】AT89C52点亮一盏LED灯(
- 下一篇: 麦克风阵列声源定位四通道麦克风数据库及T