日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

基础爬虫——以豆丁网《编译原理》(清华大学出版社第二版)课后习题答案为例

發布時間:2024/3/26 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 基础爬虫——以豆丁网《编译原理》(清华大学出版社第二版)课后习题答案为例 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目錄

  • 尋找目標地址規律
  • 寫代碼

尋找目標地址規律

目標地址:目標地址

在此之前,講一個小技巧,要在IE瀏覽器中打開這個網址,在谷歌瀏覽器中打開這個網址是找不到答案圖片網址的,Firefox沒試過。IE為什么行,我也不知道,參考網上大佬說法的。

IE瀏覽器打開網址------》F12查看網頁源碼,如下圖:

把圖片的鏈接復制下來找規律,如下圖:
非常僥幸的發現只有pageno不同,那么pageno就表示頁數:

寫代碼

import os
import random
import sys
import time
import requests

# 目標地址相同的前面部分 URLHead = "https://docimg1.docin.com/docinpic.jsp?file=2165435912&width=1500&sid=SUlUgAI*QIVqpV9S7unyU8MPJmU7j1D4cSQFIWnJ1qwzKcjQ-pCKWOBFGKSLpCs-&pageno=" # 目標地址相同的后面部分 URLend = "&pcimg=1" page = 173# 創建存儲文件夾,根據自己需要修改 path = 'D:\PyCharmProject\SpiderDOC\編譯原理' isExists = os.path.exists(path) if not isExists:# 如果不存在則創建目錄# 創建目錄操作函數os.makedirs(path)print(path + ' 創建成功')# 按照頁數爬 while page <= 173:URL = URLHead + str(page) + URLendprint("正在爬%d頁" % page)with open(path + '/' + str(page) + '.jpg', 'wb') as file:file.write(requests.get(URL).content)print("已爬取%d頁" % page)# 產生隨機數,休眠幾秒,以免被封IPwaist = random.uniform(1, 8)time.sleep(waist)print("休眠%d秒" % waist)page = page + 1 print("Spider!")

總結

以上是生活随笔為你收集整理的基础爬虫——以豆丁网《编译原理》(清华大学出版社第二版)课后习题答案为例的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。