當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

《Python爬虫开发与项目实战》——第3章初识网络爬虫 3.1　网络爬虫概述

發(fā)布時(shí)間：2023/12/19 python 33 豆豆

生活随笔收集整理的這篇文章主要介紹了《Python爬虫开发与项目实战》——第3章初识网络爬虫 3.1　网络爬虫概述小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本節(jié)書摘來(lái)自華章計(jì)算機(jī)《Python爬蟲開發(fā)與項(xiàng)目實(shí)戰(zhàn)》一書中的第3章，第3.1節(jié)，作者：范傳輝著，更多章節(jié)內(nèi)容可以訪問(wèn)云棲社區(qū)“華章計(jì)算機(jī)”公眾號(hào)查看

第3章初識(shí)網(wǎng)絡(luò)爬蟲

　　從本章開始，將正式涉及Python爬蟲的開發(fā)。本章主要分為兩個(gè)部分：一部分是網(wǎng)絡(luò)爬蟲的概述，幫助大家詳細(xì)了解網(wǎng)絡(luò)爬蟲；另一部分是HTTP請(qǐng)求的Python實(shí)現(xiàn)，幫助大家了解Python中實(shí)現(xiàn)HTTP請(qǐng)求的各種方式，以便具備編寫HTTP網(wǎng)絡(luò)程序的能力。

3.1　網(wǎng)絡(luò)爬蟲概述

　　本節(jié)正式進(jìn)入Python爬蟲開發(fā)的專題，接下來(lái)從網(wǎng)絡(luò)爬蟲的概念、用處與價(jià)值和結(jié)構(gòu)等三個(gè)方面，讓大家對(duì)網(wǎng)絡(luò)爬蟲有一個(gè)基本的了解。
3.1.1　網(wǎng)絡(luò)爬蟲及其應(yīng)用
　　隨著網(wǎng)絡(luò)的迅速發(fā)展，萬(wàn)維網(wǎng)成為大量信息的載體，如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)，網(wǎng)絡(luò)爬蟲應(yīng)運(yùn)而生。網(wǎng)絡(luò)爬蟲（又被稱為網(wǎng)頁(yè)蜘蛛、網(wǎng)絡(luò)機(jī)器人），是一種按照一定的規(guī)則，自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。下面通過(guò)圖3-1展示一下網(wǎng)絡(luò)爬蟲在互聯(lián)網(wǎng)中起到的作用：
　　網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)，大致可以分為以下幾種類型：通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲。實(shí)際的網(wǎng)絡(luò)爬蟲系統(tǒng)通常是幾種爬蟲技術(shù)相結(jié)合實(shí)現(xiàn)的。
　　搜索引擎（Search Engine），例如傳統(tǒng)的通用搜索引擎baidu、Yahoo和Google等，是一種大型復(fù)雜的網(wǎng)絡(luò)爬蟲，屬于通用性網(wǎng)絡(luò)爬蟲的范疇。但是通用性搜索引擎存在著一定的局限性：
　　1）不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求，通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁(yè)。

　　2）通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率，有限的搜索引擎服務(wù)器資源與無(wú)限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。
　　3）萬(wàn)維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展，圖片、數(shù)據(jù)庫(kù)、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn)，通用搜索引擎往往對(duì)這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無(wú)能為力，不能很好地發(fā)現(xiàn)和獲取。
　　4）通用搜索引擎大多提供基于關(guān)鍵字的檢索，難以支持根據(jù)語(yǔ)義信息提出的查詢。
　　為了解決上述問(wèn)題，定向抓取相關(guān)網(wǎng)頁(yè)資源的聚焦爬蟲應(yīng)運(yùn)而生。
　　聚焦爬蟲是一個(gè)自動(dòng)下載網(wǎng)頁(yè)的程序，它根據(jù)既定的抓取目標(biāo)，有選擇地訪問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接，獲取所需要的信息。與通用爬蟲不同，聚焦爬蟲并不追求大的覆蓋，而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁(yè)，為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。
　　說(shuō)完了聚焦爬蟲，接下來(lái)再說(shuō)一下增量式網(wǎng)絡(luò)爬蟲。增量式網(wǎng)絡(luò)爬蟲是指對(duì)已下載網(wǎng)頁(yè)采取增量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁(yè)的爬蟲，它能夠在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。和周期性爬行和刷新頁(yè)面的網(wǎng)絡(luò)爬蟲相比，增量式爬蟲只會(huì)在需要的時(shí)候爬行新產(chǎn)生或發(fā)生更新的頁(yè)面，并不重新下載沒(méi)有發(fā)生變化的頁(yè)面，可有效減少數(shù)據(jù)下載量，及時(shí)更新已爬行的網(wǎng)頁(yè)，減小時(shí)間和空間上的耗費(fèi)，但是增加了爬行算法的復(fù)雜度和實(shí)現(xiàn)難度。例如：想獲取趕集網(wǎng)的招聘信息，以前爬取過(guò)的數(shù)據(jù)沒(méi)有必要重復(fù)爬取，只需要獲取更新的招聘數(shù)據(jù)，這時(shí)候就要用到增量式爬蟲。
　　最后說(shuō)一下深層網(wǎng)絡(luò)爬蟲。Web頁(yè)面按存在方式可以分為表層網(wǎng)頁(yè)和深層網(wǎng)頁(yè)。表層網(wǎng)頁(yè)是指?jìng)鹘y(tǒng)搜索引擎可以索引的頁(yè)面，以超鏈接可以到達(dá)的靜態(tài)網(wǎng)頁(yè)為主構(gòu)成的Web頁(yè)面。深層網(wǎng)絡(luò)是那些大部分內(nèi)容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的，只有用戶提交一些關(guān)鍵詞才能獲得的Web頁(yè)面。例如用戶登錄或者注冊(cè)才能訪問(wèn)的頁(yè)面。可以想象這樣一個(gè)場(chǎng)景：爬取貼吧或者論壇中的數(shù)據(jù)，必須在用戶登錄后，有權(quán)限的情況下才能獲取完整的數(shù)據(jù)。
　　本書除了通用性爬蟲不會(huì)涉及之外，聚焦爬蟲、增量式爬蟲和深層網(wǎng)絡(luò)爬蟲的具體運(yùn)用都會(huì)進(jìn)行講解。下面展示一下網(wǎng)絡(luò)爬蟲實(shí)際運(yùn)用的一些場(chǎng)景：
　　1）常見的BT網(wǎng)站，通過(guò)爬取互聯(lián)網(wǎng)的DHT網(wǎng)絡(luò)中分享的BT種子信息，提供對(duì)外搜索服務(wù)。如圖3-2所示。

　　2）一些云盤搜索網(wǎng)站，通過(guò)爬取用戶共享出來(lái)的云盤文件數(shù)據(jù)，對(duì)文件數(shù)據(jù)進(jìn)行分類劃分，從而提供對(duì)外搜索服務(wù)。如圖3-3所示。

3.1.2　網(wǎng)絡(luò)爬蟲結(jié)構(gòu)
　　下面用一個(gè)通用的網(wǎng)絡(luò)爬蟲結(jié)構(gòu)來(lái)說(shuō)明網(wǎng)絡(luò)爬蟲的基本工作流程，如圖3-4所示。

　　網(wǎng)絡(luò)爬蟲的基本工作流程如下：
　　1）首先選取一部分精心挑選的種子URL。
　　2）將這些URL放入待抓取URL隊(duì)列。
　　3）從待抓取URL隊(duì)列中讀取待抓取隊(duì)列的URL，解析DNS，并且得到主機(jī)的IP，并將URL對(duì)應(yīng)的網(wǎng)頁(yè)下載下來(lái)，存儲(chǔ)進(jìn)已下載網(wǎng)頁(yè)庫(kù)中。此外，將這些URL放進(jìn)已抓取URL隊(duì)列。
　　4）分析已抓取URL隊(duì)列中的URL，從已下載的網(wǎng)頁(yè)數(shù)據(jù)中分析出其他URL，并和已抓取的URL進(jìn)行比較去重，最后將去重過(guò)的URL放入待抓取URL隊(duì)列，從而進(jìn)入下一個(gè)循環(huán)。
　　這便是一個(gè)基本的通用網(wǎng)絡(luò)爬蟲框架及其工作流程，在之后的章節(jié)我們會(huì)用Python實(shí)現(xiàn)這種網(wǎng)絡(luò)爬蟲結(jié)構(gòu)。

總結(jié)

以上是生活随笔為你收集整理的《Python爬虫开发与项目实战》——第3章初识网络爬虫 3.1　网络爬虫概述的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：细说php这么难懂,挺难懂的解决方法
下一篇： Python语法异常 Exception

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

《Python爬虫开发与项目实战》——第3章 初识网络爬虫 3.1 网络爬虫概述

第3章 初識(shí)網(wǎng)絡(luò)爬蟲

3.1 網(wǎng)絡(luò)爬蟲概述

總結(jié)

《Python爬虫开发与项目实战》——第3章初识网络爬虫 3.1　网络爬虫概述

第3章初識(shí)網(wǎng)絡(luò)爬蟲

3.1　網(wǎng)絡(luò)爬蟲概述