日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python可以这样学豆瓣_python爬虫学习之路:豆瓣爬虫练习

發布時間:2025/3/15 python 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python可以这样学豆瓣_python爬虫学习之路:豆瓣爬虫练习 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本人30歲大叔一枚,學習爬蟲完全興趣使然。

在此記錄一下自己寫的第一個爬蟲項目,后面還會繼續改進,加上多線程,讓爬蟲運行快起來

目標網站豆瓣圖書標簽: 小說?book.douban.com

想要獲取的數據:書名、作者、評分、評論人數

保存格式:Excel

先說一下我自己理解的爬蟲完成步驟

一般的小爬蟲不用想太多,第一步,分析網頁,查看數據是不是在網頁源碼里面,如果不是就抓包(專業人士好像是說什么動態加載靜態加載吧),第二步整理一下思路,先獲取什么在獲取什么怎么保存,大體有個數,最后才是擼代碼改bug

話不多說直接上源碼,然后說說碰到的問題和解決方案

先說一下自己用到的庫,requests和lxml這兩個就不用多說了,time和random主要是為了加入隨機延時,避免爬蟲被封,也可以減小對服務器的壓力

另外start和end兩個時間是為了計算總耗時,用來方便后面加入多線程的時候對比運行速度

這個輸出方便在運行過程中如果出錯及時找到是第幾頁的錯誤,方便修改程序

說下碰到的問題

1、評分一開始的代碼是這樣的

后來運行到第16頁出現了超出列表范圍的錯誤,發現第16頁有本書沒有評分

所以就改成了現在的樣子

2、保存完之后發現獲取到的數據只有1000,可是按照豆瓣給出的頁數381頁,每頁20本書,應該有7620條,然后我就不開心的看了51頁的數據發現是這樣的

早知道就不用自己寫個獲取頁數的代碼了,直接for i in range(0,1000,20)就搞定領,費這個勁

后面加上多線程測試一下,到時候在更新

總結

以上是生活随笔為你收集整理的python可以这样学豆瓣_python爬虫学习之路:豆瓣爬虫练习的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。