日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

[Hadoop in China 2011] 何鹏:Hadoop在海量网页搜索中应用分析

發(fā)布時間:2025/6/17 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 [Hadoop in China 2011] 何鹏:Hadoop在海量网页搜索中应用分析 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

何鵬是即刻搜索研發(fā)部系統(tǒng)平臺組的工程師,即刻搜索是人民網(wǎng)其下的搜索引擎,由人民搜索轉(zhuǎn)變而來,于今年6月20日正式上線。據(jù)何鵬介紹,即刻搜索 目前存放了200億個文件以上,其整個系統(tǒng)架構采用Hadoop海量數(shù)據(jù)分析平臺,并針對特定環(huán)境對應用程序做了修改。在本次演講中,何鵬工程師將為我們 分析基于Hadoop的海量網(wǎng)頁分析案例。


▲即刻搜索研發(fā)部系統(tǒng)平臺組工程師何鵬

  即刻搜索整體架構借助了Hadoop整個海量分析平臺,并針對特定環(huán)境增刪修改了部分中間件,改良了部分應用程序,以提高性能,下圖所展示的是即刻搜索的整體框架圖:


▲即刻搜索整體架構圖

  在上圖中,HDFS即為Hadoop海量數(shù)據(jù)處理平臺,其中Hdfs_Bridge為新添加的中間件,并且,JikeSpider為即刻搜索工程師新開發(fā)的應用,并對部分程序進行了改良。

  Hdfs_Bridge為即刻搜索海量數(shù)據(jù)處理平臺的中間件,主要是滿足爬蟲的快速寫,并對文件提供自動Flush sstable功能。其通過將寫轉(zhuǎn)化為內(nèi)存寫,用DFS直接Flush。以此替代HDFS的多次不必要的序列化和反序列化。


  并且,即刻還對Hadoop Pipes進行了改良。通過修改Hadoop pipse的通信寫u,將單一的路勁輸入輸出改為多路徑輸入輸出。還進行本地化調(diào)試,并對部分代碼進行了優(yōu)化。

  據(jù)何鵬工程師介紹,目前即刻搜索的海量數(shù)據(jù)處理平臺還存在一些不足,正在不斷優(yōu)化。比如在部分大型作業(yè)時,多個task分配到同一臺及其,導致該機器負載過大,從而拖慢整個作業(yè)進度,甚至在極端狀況下,出現(xiàn)內(nèi)存過慢的情況。何鵬認為,其主要原因在于任務調(diào)度分配不合理,其技術團隊正在開發(fā)一個中間件,以對集群內(nèi)的機器任務進行合理分配。

  何鵬介紹說,其初步設想是通過tasktracker對CPU、內(nèi)存、硬盤以及網(wǎng)絡等信息進行搜集,并匯報給jobtracker。調(diào)度器接受到這些信息之后,在調(diào)度任務時將CPU、內(nèi)存、硬盤以及網(wǎng)絡等信息納入考慮之中,在進行合理的任務分配。

  并且,由于數(shù)據(jù)中心的能耗較大,何鵬希望能夠通過技術手段來降低數(shù)據(jù)中心的能耗。例如集群能源進行管理,當CPU、I/O以及磁盤長時間處于idle時,即可整機進入省電模式;甚至還可對idle較長的模塊進行關閉操作。

總結

以上是生活随笔為你收集整理的[Hadoop in China 2011] 何鹏:Hadoop在海量网页搜索中应用分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。