看google三篇论文的感触
? ? ? ? ?? 剛開始看老師推薦的三篇Google的技術論文(分別是GFS,Mapreduce,Bigtable)時,基本上是云里霧里,摸不著頭尾。于是我結合網上查詢的資料,對于這些論文講述的一些知識有了一定的了解。最后,我不得不佩服谷歌的開發人員,佩服他們的思維,佩服他們的邏輯,佩服他們的智慧。其中,最感興趣的便是Google文件系統的產生。
Google文件系統(GFS):
? ? ?? Google文件系統(GFS)是由 Google Inc.創建的可擴展分布式文件系統(DFS),旨在滿足 Google 不斷擴展的數據處理要求。 GFS 為大型網絡和連接節點提供容錯,可靠性,可擴展性,可用性和性能。
GFS 由幾個由低成本商用硬件組件構建的存儲系統組成。它經過優化,可以滿足谷歌不同的數據使用和存儲需求,例如搜索引擎,它可以生成大量必須存儲的數據。谷歌文件系統充分利用了現成的優勢服務器同時最大限度地減少了硬件缺陷。
GFS 也稱為 GoogleFS。
GFS 節點集群是一個擁有多個塊服務器的主服務器不斷的客戶端系統不斷訪問。塊服務器將數據作為 Linux 文件存儲在本地磁盤上。存儲的數據分為大塊(64 MB),這些塊在網絡中至少復制三次。大塊大小減少了網絡開銷。
GFS 旨在滿足 Google 的大型集群需求,而不會給應用程序帶來負擔。文件存儲在由路徑名標識的分層目錄中。元數據 – 例如命名空間,訪問控制數據和映射信息 – 由主控制器控制,主控制器通過定時心跳消息與每個塊服務器的狀態更新進行交互并監視它們的狀態更新。
GFS 功能包括:
最大的 GFS 集群擁有 1,000 多個節點,300 TB 磁盤存儲容量。數百名客戶可以連續訪問。
Google MapReduce:
Google在2003年和2004年提出一篇論文,面向大數據的并行處理的框架模型--MapReduce.
單個計算機無論再好的設備處理能力終究有限,而MapReduce通過簡單的接口來實現自動的并行化和大規模的分布式計算,在大量普通的PC機上實現高性能運算,他可以很簡單粗暴的通過不斷增加pc機數目來提高性能.將此難題迎刃而解,同時促進了大數據時代的到來MapReduce的主要思想概括說來就是四個字,”化整為零”,通過Map(映射)和Reduce(規約)來實現.面對一個復雜的問題,將其分解成若干個map任務和reduce任務,一個map任務即所一個復雜問題分解的一個小問題,reduce任務即將所有已解決的map任務總結匯總最后得出該復雜問題的答案.而這些一個任務的承擔者即是一臺普通的pc機,叫他worker,執行map任務的叫map worker,當然執行reduce任務的就叫reduce worker了.那么這些任務由誰來分配?也是這些pc機中的一臺,他叫做master,他的任務就像他的名字一樣,解決這個問題不是他的事兒,他負責分配任務下去,同時管理好這些這些map worker和reduce worker,每一個worker的詳細信息都在他的數據內.由于一個問題是由成百上千的機器集群來解決的,如果其中一臺機器故障怎么辦?Worker故障就由master再集群中再選一個空閑狀態的機器出來代替他.
?
Google?Bigtable:
Bigtable是一個為管理大規模結構化數據而設計的分布式存儲系統,可以擴展到PB級數據和上千臺服務器。很多google的項目使用Bigtable存儲數據,這些應用對Bigtable提出了不同的挑戰,比如數據規模的要求、延遲的要求。Bigtable能滿足這些多變的要求,為這些產品成功地提供了靈活、高性能的存儲解決方案。
Bigtable看起來像一個數據庫,采用了很多數據庫的實現策略。但是Bigtable并不支持完整的關系型數據模型;而是為客戶端提供了一種簡單的數據模型,客戶端可以動態地控制數據的布局和格式,并且利用底層數據存儲的局部性特征。Bigtable將數據統統看成無意義的字節串,客戶端需要將結構化和非結構化數據串行化再存入Bigtable
以上就是通過閱讀google三篇論文所了解到的知識與感悟
?
?
總結
以上是生活随笔為你收集整理的看google三篇论文的感触的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python的应用领域和常用函数模块有哪
- 下一篇: python 密码学计算_python