日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python爬取豆瓣图书top250_python3 爬虫学习:爬取豆瓣读书Top250(四)

發布時間:2023/12/16 python 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬取豆瓣图书top250_python3 爬虫学习:爬取豆瓣读书Top250(四) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在python3 爬蟲學習:爬取豆瓣讀書Top250(三)中,我們已經成功獲取了數據,但是我們只拿到了一頁的數據,今天,咱們繼續補充程序。

url分析

咱們先來分析一下,豆瓣讀書top250的url有沒有什么規律,以便我們進行代碼的編輯呢?

第 1 頁:https://book.douban.com/top250

第 2 頁:https://book.douban.com/top250?start=25

第 3 頁:https://book.douban.com/top250?start=50

...

第 10 頁:https://book.douban.com/top250?start=225

從上面的url可以看到,每一次,url變化的部分都是top250之后,新加了一個?start=[num],這里的num每一頁增加了25,代表是每一頁的數據量是25,我們發現了一個url和頁數的規律性:(頁數 - 1)*25 = num

于是url可以寫成這樣:

url = 'https://book.douban.com/top250?start={}'

for i in range(10):

num = i * 25

urls = url.format(num)

print(urls)

#輸出:

https://book.douban.com/top250?start=0

https://book.douban.com/top250?start=25

https://book.douban.com/top250?start=50

https://book.douban.com/top250?start=75

https://book.douban.com/top250?start=100

https://book.douban.com/top250?start=125

https://book.douban.com/top250?start=150

https://book.douban.com/top250?start=175

https://book.douban.com/top250?start=200

https://book.douban.com/top250?start=225

很好,現在我們已經拿到了所有目標頁的url地址,下一步,就是把程序做一下補充啦:

# 導入requests、BeautifulSoup、time庫

import requests

from bs4 import BeautifulSoup

import time

# 類屬性初始值的設置(初始化方法)

def book_spider(url):

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36'

}

# 以get方法獲取網頁數據并將response對象存入res

res = requests.get(url, headers = headers)

# 建立BeautifulSoup對象

bs = BeautifulSoup(res.text, 'html.parser')

# 提取所有class = 'pl2'的div標簽里面的a標簽

items = bs.select('div.pl2 a')

# 提取所有class = 'pl'的p標簽

authors = bs.select('p.pl')

# 提取所有class = 'inq'的span標簽

abstract = bs.select('span.inq')

# 使用zip函數,遍歷多個列表

for i, j, k in zip(items, authors, abstract):

# 字符串格式化,使用\n換行

print('書名:{}\n鏈接:{}\n{}\n推薦語:{}'.format(i['title'], i['href'], j.text, k.text))

# 打印一行分隔符,讓輸出結果更美觀

print('--------------------------------')

url = 'https://book.douban.com/top250?start={}'

urls = [url.format(num * 25) for num in range(10)]

for url in urls:

book_spider(url) #把重新生成的url傳入函數中,并調用

time.sleep(2) #每爬一個鏈接,休息2秒鐘

輸出結果

總結

以上是生活随笔為你收集整理的python爬取豆瓣图书top250_python3 爬虫学习:爬取豆瓣读书Top250(四)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。