當(dāng)前位置：首頁(yè) >

分析ajax爬取果壳网

發(fā)布時(shí)間：2024/3/12 42 豆豆

生活随笔收集整理的這篇文章主要介紹了分析ajax爬取果壳网小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

一、確定要爬取的網(wǎng)頁(yè)

? ? ? ? 首先選擇要爬取的網(wǎng)頁(yè)，我要爬取的是果殼網(wǎng)，url為：https://www.guokr.com/scientific/

爬取每篇文章的標(biāo)題、名字、作者、發(fā)布時(shí)間等信息

二、分析網(wǎng)頁(yè)

? ? ? 我們每次往下拉的時(shí)候都會(huì)有源源不斷的文章出來，而我們?cè)诜治鲈摼W(wǎng)頁(yè)的時(shí)候新文章的HTML也是我們往下拉的時(shí)候出現(xiàn)的，那么恭喜你了，這個(gè)網(wǎng)站的數(shù)據(jù)放在ajax中了，聽到這里就有人覺得麻煩了，以前爬取的數(shù)據(jù)都是固定的，requests請(qǐng)求后就可以直接分析了，其實(shí)ajax并不難，我們只要找到ajax的地址和其中的參數(shù)即可，為什么這么說呢？因?yàn)槊看瓮吕臅r(shí)候，ajax每次會(huì)都有固定文章出現(xiàn)，這其中肯定有相對(duì)應(yīng)的參數(shù)來控制的，我們只要分析這個(gè)ajax的url就好了，把其固定不變的截取下來，而改變的參數(shù)則我們來傳參

? ? ? ?下面這個(gè)文件就是我們要找的ajax地址了，點(diǎn)擊進(jìn)去看下

? ? ? ?看下我們的headers，分析我們請(qǐng)求的url，然后得出結(jié)論

固定的是 ? ?https://www.guokr.com/apis/minisite/article.json??

有三個(gè)參數(shù)，分別是retrieve_type、limit、offset，經(jīng)過多次對(duì)比，發(fā)現(xiàn)就是offset一直再改變，所以前面兩個(gè)參數(shù)寫死，后面的根據(jù)參數(shù)來改變，開始的時(shí)候有18篇文章，而每次ajax會(huì)加載出20篇，所以就可以得到offset的值了

三、分析出每篇文章的url

我們看到每個(gè)ajax中都放了20條數(shù)據(jù)，數(shù)據(jù)都在result的東西里面

點(diǎn)開這個(gè)result，在最下面找到了我們要的url，這里需要記住最重要的一點(diǎn)，得到的ajax的格式都是json格式的

四、分析每篇文件的url，找到需要的數(shù)據(jù)的位置

隨便點(diǎn)開一篇文章，根據(jù)分析，發(fā)現(xiàn)所有的數(shù)據(jù)都放在這個(gè)div中，只需得到這個(gè)div，然后進(jìn)一步分析得到里面的數(shù)據(jù)

五、代碼

import requests from bs4 import BeautifulSoup# 得到每個(gè)offset值 def off_set():offset = 18# 先取99個(gè)ajax，for i in range(1,100):if i == 1:parse_url(offset)else:offset = limit + offsetparse_url(offset)# 將得到的offset傳入 def parse_url(offset):# 帶參傳遞data = {'retrieve_type':'by_subject','limit':'20','offset':offset}# 請(qǐng)求這個(gè)ajax地址response = requests.get(start_ajax,params=data,headers=headers)# 得到的數(shù)據(jù)是個(gè)json格式，所以用requests自帶的json函數(shù)來解析它ajax_data=response.json()# 解析得到每篇文章的url，因?yàn)閍jax是個(gè)字典格式，而其中result的值卻是個(gè)列表，所以要用[0]取出lst=ajax_data['result']for i in lst:url = i['url']print(url)parse(url)def parse(url):html = requests.get(url,headers=headers)html = html.textsoup = BeautifulSoup(html,'lxml')data = soup.find_all('div',class_='content-th')for i in data:title = i.find_all('a')[0].textname = i.find_all('h1')[0].text.split()[0]zuoze = i.find_all('div','content-th-info')[0].find_all('a')[0].texttime = i.find_all('div','content-th-info')[0].find_all('meta')[0]['content']print('{}\t\t{}\t\t{}\t\t{}'.format(title,name,zuoze,time))if __name__ == '__main__':start_ajax = 'https://www.guokr.com/apis/minisite/article.json?'headers = {'User-Agent': 'Mozilla/4.0(compatible;MSIE 5.5;Windows NT)', }# 每個(gè)offset都是以18為基數(shù)，每次疊加20limit = 20off_set()

運(yùn)行結(jié)果：

就這樣得到了我們要的結(jié)果，當(dāng)然你要其它數(shù)據(jù)可以自己寫，我只想告訴你們?nèi)绾稳ソ馕鯽jax文件

總結(jié)

以上是生活随笔為你收集整理的分析ajax爬取果壳网的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

Ajax
果壳

上一篇： FATAL ERROR: MarkCom
下一篇：支付宝RSA2公钥证书生成办法

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

分析ajax爬取果壳网

總結(jié)