日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

云计算背后的秘密(1)-MapReduce

發布時間:2025/5/22 编程问答 16 豆豆
生活随笔 收集整理的這篇文章主要介紹了 云计算背后的秘密(1)-MapReduce 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

之前在IT168上已經寫了一些關于云計算誤區的文章,雖然這些文章并不是非常技術,但是也非常希望它們能幫助大家理解云計算這一新浪潮,而在最近幾天,IT168的唐蓉同學聯系了我,希望我能將云計算背后的一些核心技術介紹給IT168的讀者,雖然我本身已經忙于其它事務,但是由于云計算的核心技術是我最熟悉和最擅長,而且宣傳這些技術也是我寫《剖析云計算》一書和建立PeopleYun.com站點的初衷,所以我毫不猶豫地接受了這個邀請,這就是“云計算背后的秘密”這個系列的由來。

在這個新系列中將介紹多種云計算所涉及到的核心技術,包括分布式處理、分布式數據庫、分布式鎖、分布式文件系統、多租戶架構和虛擬化等,而且將會介紹這些技術相關的產品和用例,以幫助大家進一步理解這些技術。預計每周會更新一篇,總長度會在10篇左右,希望大家能喜歡,而本文則是這個系列的第一篇。

?

在Google數據中心會有大規模數據需要處理,比如被網絡爬蟲(Web Crawler)抓取的大量網頁等。由于這些數據很多都是PB級別,導致處理工作不得不盡可能的并行化,而Google為了解決這個問題,引入了MapReduce這個分布式處理框架。

技術概覽

MapReduce本身源自于函數式語言,主要通過”Map(映射)”和”Reduce(化簡)”這兩個步驟來并行處理大規模的數據集。首先,Map會先對由很多獨立元素組成的邏輯列表中的每一個元素進行指定的操作,且原始列表不會被更改,會創建多個新的列表來保存Map的處理結果。也就意味著,Map操作是高度并行的。當Map工作完成之后,系統會接著對新生成的多個列表進行清理(Shuffle)和排序,之后,會這些新創建的列表進行Reduce操作,也就是對一個列表中的元素根據Key值進行適當的合并。下圖為MapReduce的運行機制:

圖1. MapReduce的運行機制

接下來,將根據上圖來舉一個MapReduce的例子來幫助大家理解:比如,通過搜索引擎的爬蟲(Spider)將海量的Web頁面從互聯網中抓取到本地的分布式文件系統中,然后索引系統將會對存儲在這個分布式文件系統中海量的Web頁面進行平行的Map處理,生成多個Key為URL,Value為html頁面的鍵值對(Key-Value Map),接著,系統會對這些剛生成的鍵值對進行Shuffle(清理),之后,系統會通過Reduce操作來根據相同的key值(也就是URL)合并這些鍵值對。

優劣點

談到MapReduce的優點,主要有兩個方面:其一,通過MapReduce這個分布式處理框架,不僅能用于處理大規模數據,而且能將很多繁瑣的細節隱藏起來,比如,自動并行化、負載均衡和災備管理等,這樣將極大地簡化程序員的開發工作;其二,MapReduce的伸縮性非常好,也就是說,每增加一臺服務器,其就能將差不多的計算能力接入到集群中,而過去的大多數分布式處理框架,在伸縮性方面都與MapReduce相差甚遠。而 MapReduce最大的不足則在于,其不適應實時應用的需求,所以在Google最新的實時性很強的Caffeine搜索引擎中,MapReduce的主導地位已經被可用于實時處理Percolator系統所代替,其具體細節,將在本系列接下來的文章中進行介紹。

相關產品

除了Google內部使用的MapReduce之外,還有,由Lucene之父Doug Cutting領銜的Yahoo團隊開發,Apache管理的MapReduce的開源版本Hadoop,而且一經推出,就受到業界極大的歡迎,并且衍生出HDFS、ZooKeeper、Hbase、Hive和Pig等系列產品。

實際用例

在實際的工作環境中,MapReduce這套分布式處理框架常用于分布式grep、分布式排序、Web訪問日志分析、反向索引構建、文檔聚類、機器學習、數據分析、基于統計的機器翻譯和生成整個搜索引擎的索引等大規模數據處理工作,并且已經在很多國內知名的互聯網公司內部得到極大地應用,比如百度和淘寶。

最后,如果大家對MapReduce感興趣的話,可以到Hadoop的官方站點上下載并試用。

轉載于:https://www.cnblogs.com/mengheyun/archive/2010/12/16/1963096.html

《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的云计算背后的秘密(1)-MapReduce的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。