日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python基础爬虫的框架以及详细的运行流程

發(fā)布時(shí)間:2025/3/20 python 16 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python基础爬虫的框架以及详细的运行流程 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

網(wǎng)絡(luò)爬蟲是什么?

網(wǎng)絡(luò)爬蟲就是:請(qǐng)求網(wǎng)站并提取數(shù)據(jù)的自動(dòng)化程序

網(wǎng)絡(luò)爬蟲能做什么?

網(wǎng)絡(luò)爬蟲被廣泛用于互聯(lián)網(wǎng)搜索引擎或其他類似網(wǎng)站,可以自動(dòng)采集所有其能夠訪問到的頁面內(nèi)容,以獲取或更新這些網(wǎng)站的內(nèi)容和檢索方式。

網(wǎng)絡(luò)爬蟲還被用于爬取各個(gè)網(wǎng)站的數(shù)據(jù),進(jìn)行分析、預(yù)測
近幾年來,大量的企業(yè)和個(gè)人開始使用網(wǎng)絡(luò)爬蟲采集互聯(lián)網(wǎng)的公開數(shù)據(jù),進(jìn)行數(shù)據(jù)分析,進(jìn)一步達(dá)到商業(yè)目的。

利用網(wǎng)絡(luò)爬蟲能從網(wǎng)上爬取什么數(shù)據(jù)?

可以好不吹噓的說,平時(shí)從瀏覽器瀏覽的所有數(shù)據(jù)都能被爬取下來。

網(wǎng)絡(luò)爬蟲是否合法?

上面說到了爬蟲可以爬取任何數(shù)據(jù),那么,爬取數(shù)據(jù)這種行為是否合法?
目前關(guān)于爬取數(shù)據(jù)的法律還在建立和完善中,如果爬取的數(shù)據(jù)屬于個(gè)人使用或者科研范疇,基本不存在什么問題;一旦要用于商業(yè)用途就得注意了,有可能會(huì)違法。互聯(lián)網(wǎng)界對(duì)于網(wǎng)絡(luò)爬蟲也建立了一定的道德規(guī)范(Robots協(xié)議)來約束。
這里具體看下Robots協(xié)議
Robots協(xié)議規(guī)定各個(gè)搜索引擎哪些頁面可以抓取,哪些頁面不能抓取,Robots協(xié)議雖然沒有被寫入法律,但是每一個(gè)爬蟲都應(yīng)該遵守這項(xiàng)協(xié)議。
下面是淘寶網(wǎng)的robots協(xié)議:

從圖中我們就可以發(fā)現(xiàn)淘寶網(wǎng)對(duì)百度的爬蟲引擎做出了規(guī)定,然而百度也會(huì)遵守這些規(guī)定,不信你可以試試從百度是找不到淘寶里的商品信息的。

python爬蟲的基本流程

Python爬蟲的基本流程非常簡單,主要可以分為三部分:(1)獲取網(wǎng)頁;(2)解析網(wǎng)頁(提取數(shù)據(jù));(3)存儲(chǔ)數(shù)據(jù)。

簡單的介紹下這三部分:

  • 獲取網(wǎng)頁就是給一個(gè)網(wǎng)址發(fā)送請(qǐng)求,該網(wǎng)址會(huì)返回整個(gè)網(wǎng)頁的數(shù)據(jù)。類似于在瀏覽器中輸入網(wǎng)址并按回車鍵,然后可以看到網(wǎng)站的整個(gè)頁面。
  • 解析網(wǎng)頁就是從整個(gè)網(wǎng)頁的數(shù)據(jù)中提取想要的數(shù)據(jù)。
  • 存儲(chǔ)數(shù)據(jù)顧名思義就是把數(shù)據(jù)存儲(chǔ)下來,我們可以存儲(chǔ)在文本中,也可以存儲(chǔ)到數(shù)據(jù)庫中。
    ###基礎(chǔ)爬蟲的框架以及詳細(xì)的運(yùn)行流程
    基礎(chǔ)爬蟲框架主要包括五大模塊,分別是爬蟲調(diào)度器、URL管理器、HTML下載器、HTML解析器、數(shù)據(jù)存儲(chǔ)器。這五大模塊之間的關(guān)系如下圖所示:

下來我們來分析這五大模塊之間的功能:

  • 爬蟲調(diào)度器主要負(fù)責(zé)統(tǒng)籌其他四個(gè)模塊的協(xié)調(diào)工作。
  • URL管理器負(fù)責(zé)管理URL鏈接,維護(hù)已經(jīng)爬取的URL集合和未爬取的URL集合, 提供獲取新URL鏈接的接口。
  • HTML下載器用于從URL管理器中獲取未爬取的URL鏈接并下載HTML網(wǎng)頁。
  • HTML解析器用于從HTML下載器中獲取已經(jīng)下載的HTML網(wǎng)頁,并從中解析出新 的URL鏈接交給URL管理器,解析出有效數(shù)據(jù)交給數(shù)據(jù)存儲(chǔ)器。
  • 數(shù)據(jù)存儲(chǔ)器用于將HTML解析器解析出來的數(shù)據(jù)通過文件或者數(shù)據(jù)庫的形式存儲(chǔ)起來。

詳細(xì)的運(yùn)行流程如下圖所示:

《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的python基础爬虫的框架以及详细的运行流程的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。