日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 >

python爬虫实战测评_Python 爬虫实战入门(上)

發(fā)布時(shí)間:2025/3/19 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬虫实战测评_Python 爬虫实战入门(上) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

之前為了工作需要,寫了不少爬蟲小程序,和同事們聊得過程中發(fā)現(xiàn),很多人對(duì)爬蟲還是停留在聽說過的階段,基于這個(gè)原因,特意寫點(diǎn)適合小白看的,希望大家能對(duì)爬蟲有個(gè)小認(rèn)知。

工欲善其事必先利其器,既然要寫爬蟲,那第一步,就是環(huán)境準(zhǔn)備,先來看看我們需要的基礎(chǔ)環(huán)境。

操作系統(tǒng):Windows 10

Python版本:Python 3.6

代碼編輯運(yùn)行環(huán)境:個(gè)人推薦PyCharm社區(qū)版。

依賴第三方庫:

requests:一個(gè)方便、簡(jiǎn)潔、高效且人性化的HTTP請(qǐng)求庫

BeautifulSoup:HTML解析庫

安裝的話,本身步驟并不是很復(fù)雜,我們來看看。

1.安裝Python運(yùn)行環(huán)境

從python官網(wǎng)可以進(jìn)行下載

https://www.python.org/downloads/release/python-365/

安裝的時(shí)候注意選中把python3.6添加到path,然后點(diǎn)擊Customize installation

確認(rèn)pip是選中的

2.安裝pycharm

可以從官網(wǎng)下載pycharm社區(qū)版,安裝教程可以百度

https://www.jetbrains.com/pycharm/download/#section=windows

3.安裝第三方依賴庫

這里給大家介紹兩種安裝方式:

第一種是選用pip安裝:在cmd中運(yùn)行pip install requests 或者 pip install bs4

另外一種我們可以借助pycharm安裝,在pycharm中選擇File->settings->Project Interpreter中,點(diǎn)擊右邊的+,然后輸入我們需要安裝的第三方庫

這樣我們基本爬蟲需要的環(huán)境就配置好了,那接下來,就開始我們愉快的爬蟲之旅吧。

那開始實(shí)戰(zhàn)之前,我們先來分析一下我們的爬蟲需要完成一個(gè)什么樣的流程。

人工抓取頁面數(shù)據(jù)做法

1:打開我們需要分析的網(wǎng)頁,我們以豆瓣電影top 250 為例:

https://movie.douban.com/top250

2:確認(rèn)我們需要保存的數(shù)據(jù),我們?cè)谶@將影片名字,評(píng)分和一句話評(píng)價(jià)保存下來,那就是將每條里面的數(shù)據(jù)copy并復(fù)制下來

3: 因?yàn)楫?dāng)前頁面只能展示25條,那我們需要對(duì)后續(xù)的網(wǎng)頁進(jìn)行順序讀取,確認(rèn)我們將250條都讀取出來。

那根據(jù)對(duì)人工動(dòng)作的分析,我們可以對(duì)我們的程序進(jìn)行以下分析

1. 我們需要有一個(gè)可以爬取頁面請(qǐng)求的動(dòng)作

2. 我們需要對(duì)爬取下來的頁面進(jìn)行分析

3. 我們需要對(duì)頁面請(qǐng)求進(jìn)行一個(gè)循環(huán),將250條數(shù)據(jù)都爬取下來

那基于這些需求,我們首先需要做的就是對(duì)頁面請(qǐng)求進(jìn)行爬取,那在這里,給大家介紹一個(gè)頁面請(qǐng)求的庫,就是requests。

這里是它的基本文檔介紹:

https://requests.readthedocs.io/zh_CN/latest/

看它的介紹:Requests 唯一的一個(gè)非轉(zhuǎn)基因的 Python HTTP 庫,人類可以安全享用。就知道這是一個(gè)非常簡(jiǎn)單好用的網(wǎng)絡(luò)庫了。

我們先來看一下怎么爬取第一個(gè)網(wǎng)頁 (test1.py)

運(yùn)行一下看看效果

根據(jù)打印出來的內(nèi)容,我們可以看到,第一個(gè)網(wǎng)頁已經(jīng)被我們爬取下來了,那接下來,我們就需要分析一下后續(xù)網(wǎng)頁有什么規(guī)律可以讓我們使用

第一頁:https://movie.douban.com/top250

第二頁:https://movie.douban.com/top250?start=25&filter=

第三頁:https://movie.douban.com/top250?start=50&filter=

第四頁:https://movie.douban.com/top250?start=75&filter=

我們可以看出來,從第二頁開始,每一個(gè)連接后面都需要一個(gè)start的參數(shù),而且是以25遞增的,那我們可以對(duì)我們的程序進(jìn)行以25遞增的獲取頁面(test2.py):

到這里,我們已經(jīng)可以將網(wǎng)頁都爬取下來了,那下一步要做的就是對(duì)我們需要的內(nèi)容進(jìn)行提取了,我們下一次來實(shí)現(xiàn)內(nèi)容提取。

本文所有代碼都可以在github上下載,鏈接地址為:

https://github.com/chrisblue0605/testspider_for_py.git

作 者:Testfan Chris

出  處:微信公眾號(hào):自動(dòng)化軟件測(cè)試平臺(tái)

版權(quán)說明:歡迎轉(zhuǎn)載,但必須注明出處,并在文章頁面明顯位置給出文章鏈接

總結(jié)

以上是生活随笔為你收集整理的python爬虫实战测评_Python 爬虫实战入门(上)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。