當前位置：首頁 > 运维知识 > windows >内容正文

windows

下一代大数据系统和4S标准

發布時間：2023/12/29 windows 58 豆豆

生活随笔收集整理的這篇文章主要介紹了下一代大数据系统和4S标准小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

　　大數據行業發展到今天，它創造的價值和帶來的社會效應，大家已經看得很明白，同時很多問題和不足也暴露出來，特別是hadoop能夠提供的數據處理能力，現在已經挖掘到極限，但是現在各行業對數據的存儲和計算需求，似乎卻沒有停止的跡象。在最近的一次大數據論壇上，大家開始討論下一代大數據系統和系統標準，借此機會，我們Laxcus大數據實驗室表達了自己的看法，提出了4S標準，得到與會者的普遍贊同和肯定。回來后，覺得這個話題應該再說說，所以借著CSDN這個平臺，和諸位談談我們眼中的下一代大數據系統和4S標準。
　　概述地說一下4S標準，就是：“超大規模、跨地域、簡單、安全”。這4項標準的首個英文字母都是“S”，所以我們把它稱為4S標準。很不巧，和四代戰斗機的4S標準重名了。。
　　下面從4S標準來談我們眼中的下一代大數據系統。

　　1. 超大規模
　　“規模”這個話題要從hadoop說起。諸位應該都知道，現在市面上大數據產品，基本都屬于hadoop系列，要不就是與hadoop做了各種綁定。hadoop能夠提供的數據處理能力，計算機節點數量在“千臺級“，數據存儲量在”PB量級“。再往上，hadoop將很難支撐。即使勉強維持，穩定性和可靠性也難以保證。而經常接觸互聯網業務，或者做各種科學計算的兄弟們應該有這樣的感觸：當下的數據應用需求是越來越多，需要完成的數據計算量是越來越大。hadoop設計于十年前，就象數據庫的程序員們沒想到后來的大數據應用，當初的hadoop設計者們大概也沒料到今天的數據應用會是這個情況吧。而且隨著未來各種大規模計算業務的進一步增長，hadoop現有的處理能力將無法保障這種增長需要。所以，當前的數據處理規模還要進一步擴大，保守的估計，起碼應該能夠支撐未來二十年的數據處理需要。在這樣的一個目標下，大數據系統的工作指標應該是：計算機節點數量達到“百萬臺”級，數據存儲和計算規模達到“EB”量級。只有這樣一個裕度，我們才有可能適應未來數據處理業務的需要。

　　2. 跨地域
　　“跨地域”要從去年的一次事故說起。大家應該都知道，2015年8月份，天津發生了一起大爆炸。在這次事故中，有多家IT企業被涉及，其中就有我們后來這位客戶。這次事故，他們的服務器損失了一大半，更糟糕的是數據丟失了，這可是比服務器更大的損失。用CEO原話說：服務器壞了花錢換一臺就是了，但是數據毀掉就再也找不回來了。這家企業原來用的是hadoop集群，被集中部署在一個機房里，如果hadoop當時能夠分散到多個地域部署，然后用網絡連接，形成一個多地域的并行集群和數據冗余，就不會有后來的損失。這也是這家企業找到我們的原因，要求用我們的laxcus重新部署他們的大數據集群，實現跨地域和多集群協同工作。由此可見，且不說協同計算這樣的需求，僅僅在冗災管理中，跨地域有多么重要。

　　3. 簡單
　　“簡單”是我們對下一代大數據軟件一個綜合性描述。概括地說，就是做到盡可能簡化一切操作，實現“傻瓜”式處理。這個標準的提出，緣于上面提到的下一代大數據系統超大規模化，在這種環境中，如果每減少一個環節處理，都可能獲得數倍的效率提升。具體到實現要求上，應該有以下這樣幾個指標。
　　3.1 高度集成
　　現在市面上流行的幾個大數據軟件，嚴格地說，都不是完整的產品，而是功能模塊，它們只是完成了大數據體系中的一兩個功能而已。這樣的產品交到用戶手上，當他需要一個完整的大數據服務的時候，就必須了解這些軟件各自的功能屬性，才能夠操作它們，把它們粘合到一起，然后才能組織和部署起大數據集群。這對所有用戶來說都是一個巨大的考驗，徒然增加了軟件使用門檻。這個問題有多嚴重，有過集群部署和維護經驗的人應該是最有感觸的。另外，還有一個問題是，這些軟件來自不同的開發團隊，每個團隊設計開發自己軟件的時候，著眼點必然是自己的產品需求，而大數據是一個整體，用戶普遍需要的是完整功能的大數據產品，而不是其中幾個功能模塊。所以在部署和運營集群的時候，就會產生這樣的矛盾：如何組織和搭配這些模塊，做好各模塊之間的銜接和兼容，以及更少的冗余？實際上，很多時候，這個問題都推給了用戶，成為了用戶使用大數據成本的一部分。
　　所以，下一代的大數據產品，應該是全體系全功能的設計，實現深度嵌合和一站式服務。當一個用戶需要部署一個大數據集群的時候，只用懂得安裝軟件和配置即可，而不必去深入了解軟件的各種特性，乃至被迫參與到軟件開發中來。相比于多個團隊開發的功能模塊，全體系的設計開發還有一個好處：可以有效減少模塊拼接和組裝造成的冗余，在保證穩定性和處理效率上也是最好的。對用戶來說，當一個軟件實現了原來N個模塊組合才能達到的全部功能，省略了自己做軟件裝配工的時間，簡化了流程，用這樣的軟件，何樂而不為呢？
　　3.2 易操作
　　易操作是針對普通的最終用戶來定義。其實可以想象，一個普通的數據用戶，他能夠處理的工作，也就是點擊鼠標，或者敲擊鍵盤輸入字符，然后按下回車鍵而已。而展示給普通的數據使用者的內容，應該是表格、圖形、音頻、視頻這樣可聽、可視化的直據內容。所以，基于這樣的考量，所有與用戶接口相關的大數據處理工作，都應該圍繞著這兩項要求展開，并且是基本核心要求。
　　3.3 易維護
　　易維護是對集群管理員而言。如果閣下是一位機房或者大數據中心的管理員，應該有這樣的感受：要管理少則幾百臺，多則數千臺的計算機，每臺計算機不知道什么時候發生故障，發生故障后，還要排查和排除，工作量著實太大。而且隨著下一代大數據系統的超大規模化，如果管理模式不發生改變，集群管理員將會不堪工作重負。所以，下一代大數據系統的一個重要要求，就是減輕管理員的工作負擔，提高大數據系統的自適應能力，以及部分實現系統的自維護管理。即使運行系統在發生故障后，也能夠做到迅速定位和顯式地提供故障源頭，而不是讓集群管理員去查找故障。從另一個方面說，這種自動化的管理，也有助于提高集群的穩定運行。普通的日常管理工作，也應該是通過終端，輸入類似SQL這樣的命令就可以完成。
　　3.4 易編程
　　易編程是對程序員提出的。實際上，程序員目前是整個大數據鏈上最苦逼的一群人，他們要在終端用戶、數據業務、計算機集群之間，用編程搭建起一道橋梁，來實現整個大數據鏈條的最終運轉。憑心而論，目前的分布式編程，的確比早期簡化了很多，但是放到普通的程序員面前，仍然過于復雜。其中諸如接口化、可移植、操作規范等問題，都沒有實現標準化，在這些條件沒有完備之前，程序員的編程擔負將難以減輕。而大數據行業的快速發展，卻在要求程序員具備快速編程能力。但是目前這種矛盾的現狀，顯然不能滿足要求，這同時也是造成大數據行業人才奇缺的一個因素之一。把這些情況疊加一起，目前一個可行的解決辦法，應該是采用類似EJB、CORBA這樣的中間件方案，把大數據編程組件化。程序員通過調用規范的接口，然后加入一些數據業務規則，就可以完成工作。以此實現快速設計、快速編程、快速投入部署的目的。

　　4. 數據安全
　　最后說一下數據安全。數據安全對當今社會的影響有多大，看一看這些年發生了的一些案例就知道了，例如維基解密、斯諾登這樣的事件，用地震形容也不為過。我們現在已經步入后斯諾登時代，如果仍然忽視網絡和大數據的安全問題，那么下一個安全事件很可能在我們身邊發生。所以，從這個角度來說，安全在下一代大數據系統中的重要性，可能要遠超過上述幾個指標。但是回頭看看現在的這些大數據軟件，包括hadoop，安全工作做得實在乏善可陳。
　　在我們的理念里，下一代大數據系統中，安全應該是全方位的，能夠深入數據處理的每一個環節，而且在用戶這個層面上，安全還應該是可以制訂的，就是允許讓用戶自己設計安全方案，定義安全規則，然后加入到大數據系統中來。只有這樣，在互聯網絡和云計算大行其道的今天，數據安全才能夠有所保證。

　　以上是我們對下一代大數據系統的一些粗淺看法。順便夾帶個私貨：《Laxcus大數據管理系統2.0》，其中有不少與上述介紹相關的內容。歡迎與諸位同仁交流、探討。

Laxcus大數據管理系統架構

Laxcus安全管理模型

總結

以上是生活随笔為你收集整理的下一代大数据系统和4S标准的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Github测试连接时报错“The au
下一篇：新手学习嵌入式系统

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

windows

下一代大数据系统和4S标准

總結