當(dāng)前位置：首頁(yè) >

python爬虫06 | 你的第一个爬虫，爬取当当网 Top 500 本五星好评书籍

發(fā)布時(shí)間：2024/4/15 49 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬虫06 | 你的第一个爬虫，爬取当当网 Top 500 本五星好评书籍小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

來(lái)啦，老弟

我們已經(jīng)知道怎么使用

Requests

進(jìn)行各種請(qǐng)求騷操作

也知道了對(duì)服務(wù)器返回的數(shù)據(jù)如何使用

正則表達(dá)式

來(lái)過(guò)濾我們想要的內(nèi)容

...

那么接下來(lái)

我們就使用 requests 和 re 來(lái)寫(xiě)一個(gè)爬蟲(chóng)

作為一個(gè)愛(ài)看書(shū)的你（說(shuō)的跟真的似的）

怎么能發(fā)現(xiàn)好書(shū)呢？

所以我們

爬取當(dāng)當(dāng)網(wǎng)的前 500 本好五星評(píng)書(shū)籍

怎么樣？

接下來(lái)就是

學(xué)習(xí) python 的正確姿勢(shì)

請(qǐng)?jiān)陔娔X的陪同下

邊看本文邊練習(xí)

首先我們要對(duì)我們的目標(biāo)網(wǎng)站進(jìn)行分析

先摸清對(duì)方的底

我們才能戰(zhàn)無(wú)不勝

打開(kāi)這個(gè)書(shū)籍排行榜的地址

http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-1

我們可以看到是這樣的一個(gè)網(wǎng)頁(yè)

每一頁(yè)顯示 20 本書(shū)

當(dāng)我們點(diǎn)擊下一頁(yè)的時(shí)候

你可以發(fā)現(xiàn)地址變了

http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-2

也就是我們翻到第幾頁(yè)的時(shí)候

鏈接地址的最后一個(gè)參數(shù)會(huì)跟著變

那么我們等會(huì)在 python 中可以用一個(gè)變量

來(lái)實(shí)現(xiàn)獲取不同頁(yè)數(shù)的內(nèi)容

接著

用我們之前說(shuō)的?Chrome?騷操作

來(lái)分析一下

我們要的內(nèi)容是怎么請(qǐng)求的

以及

返回給我們的源代碼是什么樣的

可以看到

我們通過(guò) GET 請(qǐng)求

我們的請(qǐng)求頭

這是服務(wù)器返回來(lái)的數(shù)據(jù)

接著我們?cè)賮?lái)分析一下我們要抓取的關(guān)鍵信息

我們要的就是前 500 本書(shū)的

排名

書(shū)名

圖片地址

作者

推薦指數(shù)

五星評(píng)分次數(shù)

價(jià)格

通過(guò)源碼我們可以看到

這些信息被放在了 <li> 標(biāo)簽中

那么我們等會(huì)就可以使用

年輕人，不會(huì)正則表達(dá)式你睡得著覺(jué)？有點(diǎn)出息沒(méi)有？

來(lái)進(jìn)行過(guò)濾我們要的信息

一頓分析完了之后

接下來(lái)擼代碼了

主要思路

使用 page 變量來(lái)實(shí)現(xiàn)翻頁(yè)

我們使用 requests 請(qǐng)求當(dāng)當(dāng)網(wǎng)

然后將返回的 HTML 進(jìn)行正則解析

由于我們暫時(shí)還沒(méi)學(xué)到數(shù)據(jù)庫(kù)

所以解析完之后就把內(nèi)容存到文件中

def main(page):
? ?url = 'http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-' + str(page)
? ?html = request_dandan(url)
? ?items = parse_result(html) # 解析過(guò)濾我們想要的信息
? ?
? ?for item in items:
? ? ? ?write_item_to_file(item)

請(qǐng)求當(dāng)當(dāng)網(wǎng)

當(dāng)我們請(qǐng)求成功之后

拿到源代碼

def request_dandan(url):
? ?try:
? ? ? ?response = requests.get(url)
? ? ? ?if response.status_code == 200:
? ? ? ? ? ?return response.text
? ?except requests.RequestException:
? ? ? ?return None

拿到源代碼了

就要對(duì)其解析

使用正則表達(dá)式獲取我們想要的關(guān)鍵信息

獲取到了之后我們封裝一下數(shù)據(jù)

def parse_result(html):
? ?pattern = re.compile('<li>.*?list_num.*?(\d+).</div>.*?<img src="(.*?)".*?class="name".*?title="(.*?)">.*?class="star">.*?class="tuijian">(.*?)</span>.*?class="publisher_info">.*?target="_blank">(.*?)</a>.*?class="biaosheng">.*?<span>(.*?)</span></div>.*?<p><span\sclass="price_n">¥(.*?)</span>.*?</li>',re.S)
? ?items = re.findall(pattern,html)
? ?for item in items:
? ? ? ?yield {
? ? ? ? ? ?'range': item[0],
? ? ? ? ? ?'iamge': item[1],
? ? ? ? ? ?'title': item[2],
? ? ? ? ? ?'recommend': item[3],
? ? ? ? ? ?'author': item[4],
? ? ? ? ? ?'times': item[5],
? ? ? ? ? ?'price': item[6]
? ? ? ?}

打印一下看看結(jié)果

for item in items:
? ? ? ?print(item)

可以看到這樣的數(shù)據(jù)

沒(méi)毛病

現(xiàn)在我們獲取的是第 1 頁(yè)的數(shù)據(jù)

如何自動(dòng)獲取 25 頁(yè) 500 條數(shù)據(jù)呢

來(lái)個(gè) for 循環(huán)唄

if __name__ == "__main__":
? ?for i in range(1,26):
? ? ? ?main(i)

獲取完 500 本書(shū)的數(shù)據(jù)之后

存到 book.txt 文件

def write_item_to_file(item):
? ?print('開(kāi)始寫(xiě)入數(shù)據(jù) ====> ' + str(item))
? ?with open('book.txt', 'a', encoding='UTF-8') as f:
? ? ? ?f.write(json.dumps(item, ensure_ascii=False) + '\n')
? ? ? ?f.close()

完成

項(xiàng)目跑起來(lái)

打開(kāi)我們存儲(chǔ)的 book.txt 看看

前 500 本書(shū)的數(shù)據(jù)就被我們拿到啦

本篇完

完整代碼小帥b已經(jīng)放到公眾號(hào)后臺(tái)啦

需要的朋友

在公眾號(hào)發(fā)送

500

即可獲取

咱們下回再見(jiàn)

掃一掃

學(xué)習(xí) Python 沒(méi)煩惱

近期文章

python爬蟲(chóng)03 | 那個(gè)叫做Urllib的庫(kù)讓我們的python假裝是瀏覽器

python爬蟲(chóng)04 | 長(zhǎng)江后浪推前浪，Requests庫(kù)把urllib庫(kù)拍在沙灘上

python爬蟲(chóng)05 | 年輕人，不會(huì)正則表達(dá)式你睡得著覺(jué)？有點(diǎn)出息沒(méi)有？

支持小帥b的就順手

點(diǎn)個(gè)好看吧

轉(zhuǎn)載于:https://www.cnblogs.com/fxxkpython/p/10832023.html

總結(jié)

以上是生活随笔為你收集整理的python爬虫06 | 你的第一个爬虫，爬取当当网 Top 500 本五星好评书籍的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： python简单爬豆瓣电影排名
下一篇： python网络爬虫之requests模

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python爬虫06 | 你的第一个爬虫，爬取当当网 Top 500 本五星好评书籍

總結(jié)