下一代大数据系统和4S标准
大數據行業發展到今天,它創造的價值和帶來的社會效應,大家已經看得很明白,同時很多問題和不足也暴露出來,特別是hadoop能夠提供的數據處理能力,現在已經挖掘到極限,但是現在各行業對數據的存儲和計算需求,似乎卻沒有停止的跡象。在最近的一次大數據論壇上,大家開始討論下一代大數據系統和系統標準,借此機會,我們Laxcus大數據實驗室表達了自己的看法,提出了4S標準,得到與會者的普遍贊同和肯定。回來后,覺得這個話題應該再說說,所以借著CSDN這個平臺,和諸位談談我們眼中的下一代大數據系統和4S標準。
概述地說一下4S標準,就是:“超大規模、跨地域、簡單、安全”。這4項標準的首個英文字母都是“S”,所以我們把它稱為4S標準。很不巧,和四代戰斗機的4S標準重名了。。
下面從4S標準來談我們眼中的下一代大數據系統。
1. 超大規模
“規模”這個話題要從hadoop說起。諸位應該都知道,現在市面上大數據產品,基本都屬于hadoop系列,要不就是與hadoop做了各種綁定。hadoop能夠提供的數據處理能力,計算機節點數量在“千臺級“,數據存儲量在”PB量級“。再往上,hadoop將很難支撐。即使勉強維持,穩定性和可靠性也難以保證。而經常接觸互聯網業務,或者做各種科學計算的兄弟們應該有這樣的感觸:當下的數據應用需求是越來越多,需要完成的數據計算量是越來越大。hadoop設計于十年前,就象數據庫的程序員們沒想到后來的大數據應用,當初的hadoop設計者們大概也沒料到今天的數據應用會是這個情況吧。而且隨著未來各種大規模計算業務的進一步增長,hadoop現有的處理能力將無法保障這種增長需要。所以,當前的數據處理規模還要進一步擴大,保守的估計, 起碼應該能夠支撐未來二十年的數據處理需要。在這樣的一個目標下,大數據系統的工作指標應該是:計算機節點數量達到“百萬臺”級,數據存儲和計算規模達到“EB”量級。只有這樣一個裕度,我們才有可能適應未來數據處理業務的需要。
2. 跨地域
“跨地域”要從去年的一次事故說起。大家應該都知道,2015年8月份,天津發生了一起大爆炸。在這次事故中,有多家IT企業被涉及,其中就有我們后來這位客戶。這次事故,他們的服務器損失了一大半,更糟糕的是數據丟失了,這可是比服務器更大的損失。用CEO原話說:服務器壞了花錢換一臺就是了,但是數據毀掉就再也找不回來了。這家企業原來用的是hadoop集群,被集中部署在一個機房里,如果hadoop當時能夠分散到多個地域部署,然后用網絡連接,形成一個多地域的并行集群和數據冗余,就不會有后來的損失。這也是這家企業找到我們的原因,要求用我們的laxcus重新部署他們的大數據集群,實現跨地域和多集群協同工作。由此可見,且不說協同計算這樣的需求,僅僅在冗災管理中,跨地域有多么重要。
3. 簡單
“簡單”是我們對下一代大數據軟件一個綜合性描述。概括地說,就是做到盡可能簡化一切操作,實現“傻瓜”式處理。 這個標準的提出,緣于上面提到的下一代大數據系統超大規模化,在這種環境中,如果每減少一個環節處理,都可能獲得數倍的效率提升。具體到實現要求上,應該有以下這樣幾個指標。
3.1 高度集成
現在市面上流行的幾個大數據軟件,嚴格地說,都不是完整的產品,而是功能模塊,它們只是完成了大數據體系中的一兩個功能而已。這樣的產品交到用戶手上,當他需要一個完整的大數據服務的時候,就必須了解這些軟件各自的功能屬性,才能夠操作它們,把它們粘合到一起,然后才能組織和部署起大數據集群。這對所有用戶來說都是一個巨大的考驗,徒然增加了軟件使用門檻。這個問題有多嚴重,有過集群部署和維護經驗的人應該是最有感觸的。另外,還有一個問題是,這些軟件來自不同的開發團隊,每個團隊設計開發自己軟件的時候,著眼點必然是自己的產品需求,而大數據是一個整體,用戶普遍需要的是完整功能的大數據產品,而不是其中幾個功能模塊。所以在部署和運營集群的時候,就會產生這樣的矛盾:如何組織和搭配這些模塊,做好各模塊之間的銜接和兼容,以及更少的冗余?實際上,很多時候,這個問題都推給了用戶,成為了用戶使用大數據成本的一部分。
所以,下一代的大數據產品,應該是全體系全功能的設計,實現深度嵌合和一站式服務。當一個用戶需要部署一個大數據集群的時候,只用懂得安裝軟件和配置即可,而不必去深入了解軟件的各種特性,乃至被迫參與到軟件開發中來。相比于多個團隊開發的功能模塊,全體系的設計開發還有一個好處:可以有效減少模塊拼接和組裝造成的冗余,在保證穩定性和處理效率上也是最好的。對用戶來說,當一個軟件實現了原來N個模塊組合才能達到的全部功能,省略了自己做軟件裝配工的時間,簡化了流程,用這樣的軟件,何樂而不為呢?
3.2 易操作
易操作是針對普通的最終用戶來定義。其實可以想象,一個普通的數據用戶,他能夠處理的工作,也就是點擊鼠標,或者敲擊鍵盤輸入字符,然后按下回車鍵而已。而展示給普通的數據使用者的內容,應該是表格、圖形、音頻、視頻這樣可聽、可視化的直據內容。所以,基于這樣的考量,所有與用戶接口相關的大數據處理工作,都應該圍繞著這兩項要求展開,并且是基本核心要求。
3.3 易維護
易維護是對集群管理員而言。如果閣下是一位機房或者大數據中心的管理員,應該有這樣的感受:要管理少則幾百臺,多則數千臺的計算機,每臺計算機不知道什么時候發生故障,發生故障后,還要排查和排除,工作量著實太大。而且隨著下一代大數據系統的超大規模化,如果管理模式不發生改變,集群管理員將會不堪工作重負。所以,下一代大數據系統的一個重要要求,就是減輕管理員的工作負擔,提高大數據系統的自適應能力,以及部分實現系統的自維護管理。即使運行系統在發生故障后,也能夠做到迅速定位和顯式地提供故障源頭,而不是讓集群管理員去查找故障。從另一個方面說,這種自動化的管理,也有助于提高集群的穩定運行。普通的日常管理工作,也應該是通過終端,輸入類似SQL這樣的命令就可以完成。
3.4 易編程
易編程是對程序員提出的。實際上,程序員目前是整個大數據鏈上最苦逼的一群人,他們要在終端用戶、數據業務、計算機集群之間,用編程搭建起一道橋梁,來實現整個大數據鏈條的最終運轉。憑心而論,目前的分布式編程,的確比早期簡化了很多,但是放到普通的程序員面前,仍然過于復雜。其中諸如接口化、可移植、操作規范等問題,都沒有實現標準化,在這些條件沒有完備之前,程序員的編程擔負將難以減輕。而大數據行業的快速發展,卻在要求程序員具備快速編程能力。但是目前這種矛盾的現狀,顯然不能滿足要求,這同時也是造成大數據行業人才奇缺的一個因素之一。把這些情況疊加一起,目前一個可行的解決辦法,應該是采用類似EJB、CORBA這樣的中間件方案,把大數據編程組件化。程序員通過調用規范的接口,然后加入一些數據業務規則,就可以完成工作。以此實現快速設計、快速編程、快速投入部署的目的。
4. 數據安全
最后說一下數據安全。數據安全對當今社會的影響有多大,看一看這些年發生了的一些案例就知道了,例如維基解密、斯諾登這樣的事件,用地震形容也不為過。我們現在已經步入后斯諾登時代,如果仍然忽視網絡和大數據的安全問題,那么下一個安全事件很可能在我們身邊發生。所以,從這個角度來說,安全在下一代大數據系統中的重要性,可能要遠超過上述幾個指標。但是回頭看看現在的這些大數據軟件,包括hadoop,安全工作做得實在乏善可陳。
在我們的理念里,下一代大數據系統中,安全應該是全方位的,能夠深入數據處理的每一個環節,而且在用戶這個層面上,安全還應該是可以制訂的,就是允許讓用戶自己設計安全方案,定義安全規則,然后加入到大數據系統中來。只有這樣,在互聯網絡和云計算大行其道的今天,數據安全才能夠有所保證。
以上是我們對下一代大數據系統的一些粗淺看法。順便夾帶個私貨:《Laxcus大數據管理系統2.0》,其中有不少與上述介紹相關的內容。歡迎與諸位同仁交流、探討。
Laxcus大數據管理系統架構
Laxcus安全管理模型
總結
以上是生活随笔為你收集整理的下一代大数据系统和4S标准的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Github测试连接时报错“The au
- 下一篇: 新手学习嵌入式系统