日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

[Hadoop in China 2011] 何鹏:Hadoop在海量网页搜索中应用分析

發布時間:2025/6/17 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 [Hadoop in China 2011] 何鹏:Hadoop在海量网页搜索中应用分析 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

何鵬是即刻搜索研發部系統平臺組的工程師,即刻搜索是人民網其下的搜索引擎,由人民搜索轉變而來,于今年6月20日正式上線。據何鵬介紹,即刻搜索 目前存放了200億個文件以上,其整個系統架構采用Hadoop海量數據分析平臺,并針對特定環境對應用程序做了修改。在本次演講中,何鵬工程師將為我們 分析基于Hadoop的海量網頁分析案例。


▲即刻搜索研發部系統平臺組工程師何鵬

  即刻搜索整體架構借助了Hadoop整個海量分析平臺,并針對特定環境增刪修改了部分中間件,改良了部分應用程序,以提高性能,下圖所展示的是即刻搜索的整體框架圖:


▲即刻搜索整體架構圖

  在上圖中,HDFS即為Hadoop海量數據處理平臺,其中Hdfs_Bridge為新添加的中間件,并且,JikeSpider為即刻搜索工程師新開發的應用,并對部分程序進行了改良。

  Hdfs_Bridge為即刻搜索海量數據處理平臺的中間件,主要是滿足爬蟲的快速寫,并對文件提供自動Flush sstable功能。其通過將寫轉化為內存寫,用DFS直接Flush。以此替代HDFS的多次不必要的序列化和反序列化。


  并且,即刻還對Hadoop Pipes進行了改良。通過修改Hadoop pipse的通信寫u,將單一的路勁輸入輸出改為多路徑輸入輸出。還進行本地化調試,并對部分代碼進行了優化。

  據何鵬工程師介紹,目前即刻搜索的海量數據處理平臺還存在一些不足,正在不斷優化。比如在部分大型作業時,多個task分配到同一臺及其,導致該機器負載過大,從而拖慢整個作業進度,甚至在極端狀況下,出現內存過慢的情況。何鵬認為,其主要原因在于任務調度分配不合理,其技術團隊正在開發一個中間件,以對集群內的機器任務進行合理分配。

  何鵬介紹說,其初步設想是通過tasktracker對CPU、內存、硬盤以及網絡等信息進行搜集,并匯報給jobtracker。調度器接受到這些信息之后,在調度任務時將CPU、內存、硬盤以及網絡等信息納入考慮之中,在進行合理的任務分配。

  并且,由于數據中心的能耗較大,何鵬希望能夠通過技術手段來降低數據中心的能耗。例如集群能源進行管理,當CPU、I/O以及磁盤長時間處于idle時,即可整機進入省電模式;甚至還可對idle較長的模塊進行關閉操作。

總結

以上是生活随笔為你收集整理的[Hadoop in China 2011] 何鹏:Hadoop在海量网页搜索中应用分析的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。