一个小型的网页抓取系统的架构设计
一個小型的網頁抓取系統(tǒng)的架構設計
????????
? ? 網頁抓取服務是互聯(lián)網中的經常使用服務。在搜索引擎中spider(網頁抓取爬蟲)是必需的核心服務。搜索引擎的衡量指標“多、快、準、新”四個指標中,多、快、新都是對spider的要求。搜索引擎公司比方google、baidu都維護者自己負責的spider系統(tǒng)。
當然他們的系統(tǒng)非常復雜,在這里我們介紹一個小型的網頁抓取系統(tǒng)的架構,目標是高速的抓取某個或者幾個指定的站點的數(shù)據。它的作用有非常多。比方做競品分析,還有其它不可告人的J。
???????? 以下這個小型的網頁抓取系統(tǒng),分成以下幾個部分:
???????? 1)網頁種子文件,這個里面配置要抓取的鏈接是我們抓取服務的起點。
???????? 2)鏈接池,鏈接的FIFO隊列,種子的link會先入這個隊列。
???????? 3)抓取線程,從鏈接池中獲取鏈接。并下載網頁生成的網頁數(shù)據放到網頁池。
???????? 4)網頁池,網頁的FIFO隊列,抓取的網頁都會進入到這個pool;
???????? 5) 抽取線程是系統(tǒng)的核心,它負責依據配置的模板抽取網頁中指定的鏈接與數(shù)據,將抽取到個格式化數(shù)據入到抽取線程,將抽取出來的新的鏈接放到鏈接庫;
???????? 6)調度線程,負責鏈接的調度策略,將選擇合適的鏈接放到鏈接池隊列。
系統(tǒng)架構例如以下:
本文轉自mfrbuaa博客園博客,原文鏈接:http://www.cnblogs.com/mfrbuaa/p/5235536.html,如需轉載請自行聯(lián)系原作者
總結
以上是生活随笔為你收集整理的一个小型的网页抓取系统的架构设计的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: adk环境变量配置
- 下一篇: awk应用小结(所有命令行均经调试)