當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

基础爬虫——以豆丁网《编译原理》（清华大学出版社第二版）课后习题答案为例

發布時間：2024/3/26 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了基础爬虫——以豆丁网《编译原理》（清华大学出版社第二版）课后习题答案为例小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

尋找目標地址規律

目標地址：目標地址

在此之前，講一個小技巧，要在IE瀏覽器中打開這個網址，在谷歌瀏覽器中打開這個網址是找不到答案圖片網址的，Firefox沒試過。IE為什么行，我也不知道，參考網上大佬說法的。

IE瀏覽器打開網址------》F12查看網頁源碼，如下圖：

把圖片的鏈接復制下來找規律，如下圖：
非常僥幸的發現只有pageno不同，那么pageno就表示頁數：

寫代碼

import os
import random
import sys
import time
import requests

# 目標地址相同的前面部分 URLHead = "https://docimg1.docin.com/docinpic.jsp?file=2165435912&width=1500&sid=SUlUgAI*QIVqpV9S7unyU8MPJmU7j1D4cSQFIWnJ1qwzKcjQ-pCKWOBFGKSLpCs-&pageno=" # 目標地址相同的后面部分 URLend = "&pcimg=1" page = 173# 創建存儲文件夾，根據自己需要修改 path = 'D:\PyCharmProject\SpiderDOC\編譯原理' isExists = os.path.exists(path) if not isExists:# 如果不存在則創建目錄# 創建目錄操作函數os.makedirs(path)print(path + ' 創建成功')# 按照頁數爬 while page <= 173:URL = URLHead + str(page) + URLendprint("正在爬%d頁" % page)with open(path + '/' + str(page) + '.jpg', 'wb') as file:file.write(requests.get(URL).content)print("已爬取%d頁" % page)# 產生隨機數，休眠幾秒，以免被封IPwaist = random.uniform(1, 8)time.sleep(waist)print("休眠%d秒" % waist)page = page + 1 print("Spider!")

總結

以上是生活随笔為你收集整理的基础爬虫——以豆丁网《编译原理》（清华大学出版社第二版）课后习题答案为例的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：兄弟连专注IT教育九周年再创辉煌
下一篇：小米科技联合创始人兼副总裁黎万强：玩出来