當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

爬虫分类——通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫

發(fā)布時(shí)間：2025/4/16 编程问答 49 豆豆

生活随笔收集整理的這篇文章主要介紹了爬虫分类——通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

爬蟲分類

網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)，大致可以分為以下幾種類型：通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲。實(shí)際的網(wǎng)絡(luò)爬蟲系統(tǒng)通常是幾種爬蟲技術(shù)相結(jié)合實(shí)現(xiàn)的

通用網(wǎng)絡(luò)爬蟲

通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲（Scalable Web Crawler），爬行對(duì)象從一些種子 URL 擴(kuò)充到整個(gè) Web，主要為門戶站點(diǎn)搜索引擎和大型 Web 服務(wù)提供商采集數(shù)據(jù)。

這類網(wǎng)絡(luò)爬蟲的爬行范圍和數(shù)量巨大，對(duì)于爬行速度和存儲(chǔ)空間要求較高，對(duì)于爬行頁(yè)面的順序要求相對(duì)較低，同時(shí)由于待刷新的頁(yè)面太多，通常采用并行工作方式，但需要較長(zhǎng)時(shí)間才能刷新一次頁(yè)面。

簡(jiǎn)單的說(shuō)就是互聯(lián)網(wǎng)上抓取所有數(shù)據(jù)。

???????聚焦網(wǎng)絡(luò)爬蟲

聚焦網(wǎng)絡(luò)爬蟲（Focused Crawler），又稱主題網(wǎng)絡(luò)爬蟲（Topical Crawler），是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁(yè)面的網(wǎng)絡(luò)爬蟲。

和通用網(wǎng)絡(luò)爬蟲相比，聚焦爬蟲只需要爬行與主題相關(guān)的頁(yè)面，極大地節(jié)省了硬件和網(wǎng)絡(luò)資源，保存的頁(yè)面也由于數(shù)量少而更新快，還可以很好地滿足一些特定人群對(duì)特定領(lǐng)域信息的需求。

簡(jiǎn)單的說(shuō)就是互聯(lián)網(wǎng)上只抓取某一種數(shù)據(jù)。

???????增量式網(wǎng)絡(luò)爬蟲

增量式網(wǎng)絡(luò)爬蟲（Incremental Web Crawler）是指對(duì) 已下載網(wǎng) 頁(yè) 采取增量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁(yè)的爬蟲，它能夠在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。

和周期性爬行和刷新頁(yè)面的網(wǎng)絡(luò)爬蟲相比，增量式爬蟲只會(huì)在需要的時(shí)候爬行新產(chǎn)生或發(fā)生更新的頁(yè)面，并不重新下載沒有發(fā)生變化的頁(yè)面，可有效減少數(shù)據(jù)下載量，及時(shí)更新已爬行的網(wǎng)頁(yè)，減小時(shí)間和空間上的耗費(fèi)，但是增加了爬行算法的復(fù)雜度和實(shí)現(xiàn)難度。

簡(jiǎn)單的說(shuō)就是互聯(lián)網(wǎng)上只抓取剛剛更新的數(shù)據(jù)。

???????Deep Web 爬蟲

Web 頁(yè)面按存在方式可以分為表層網(wǎng)頁(yè)（Surface Web）和深層網(wǎng)頁(yè)（Deep Web，也稱 Invisible Web Pages 或 Hidden Web）。

表層網(wǎng)頁(yè)是指?jìng)鹘y(tǒng)搜索引擎可以索引的頁(yè)面，以超鏈接可以到達(dá)的靜態(tài)網(wǎng)頁(yè)為主構(gòu)成的 Web 頁(yè)面。

Deep Web 是那些大部分內(nèi)容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的，只有用戶提交一些關(guān)鍵詞才能獲得的 Web 頁(yè)面。

總結(jié)

以上是生活随笔為你收集整理的爬虫分类——通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。