日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

如何使用 Python 爬虫爬取牛客网 Java 题库?

發(fā)布時間:2023/12/14 python 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何使用 Python 爬虫爬取牛客网 Java 题库? 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

【原文鏈接】http://www.changxuan.top/?p=146

由于“打怪”失敗,最近一直在牛客網(wǎng)上刷題復(fù)習(xí)備戰(zhàn)春招。其中有個 Java專題復(fù)習(xí)題庫,我刷著刷著就想把它爬下來!那么就開始吧。

頁面是這個樣子的,

列表頁 詳情頁

分析網(wǎng)頁鏈接,發(fā)現(xiàn)沒有加密,例如第一題的詳情頁為:https://www.nowcoder.com/ta/review-java/review?query=&asc=true&order=&page=1 可以先自行構(gòu)造鏈接,代碼如下:

urls = ['https://www.nowcoder.com/ta/review-java/review?query=&asc=true&order=&page={}'.format(str(i)) for i in range(1,121)]

在選中要抓取的數(shù)據(jù)部分,右擊【檢查】,發(fā)現(xiàn)答案都在 class="design-answer-box" 標(biāo)簽內(nèi)。使用谷歌瀏覽器插件 XPath helper 進(jìn)行 Copy XPath ,“/html/body/div[1]/div[2]/div[2]/div[2]/div[1] ”。

測試結(jié)果

主要思路:

  • 構(gòu)造網(wǎng)頁鏈接
  • 編寫爬蟲函數(shù)(保存數(shù)據(jù)到文件)
  • for 循環(huán)進(jìn)行調(diào)用函數(shù)
  • 代碼如下:

    import requests import time from lxml import etreeheader = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'zh-CN,zh;q=0.8','Connection': 'keep-alive','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 ''(KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36' } #/html/body/div[1]/div[2]/div[2]/div[2]/div[1] f = open('./JavaPros.md','a+') def get_info(url,n):res = requests.get(url, headers=header)selector = etree.HTML(res.text)question = '##### '+str(n)+'、'+selector.xpath('/html/body/div[1]/div[2]/div[2]/div[1]/div[2]/text()')[0].lstrip('\n')+'\n'answer = selector.xpath('/html/body/div[1]/div[2]/div[2]/div[2]/div[1]//text()')answer = "".join(answer)answer = '```\n'+answer.lstrip('\n')+'\n```\n'f.write(question+answer)if __name__ == '__main__':urls = ['https://www.nowcoder.com/ta/review-java/review?query=&asc=true&order=&page={}'.format(str(i)) for i in range(1,121)]i = 1;for url in urls:print(url)get_info(url,i)i = i + 1time.sleep(1)f.close()

    結(jié)果:

    數(shù)據(jù)文件

    ?

    總結(jié)

    以上是生活随笔為你收集整理的如何使用 Python 爬虫爬取牛客网 Java 题库?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。