日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

翻页爬取果壳问答

發(fā)布時間:2024/3/12 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 翻页爬取果壳问答 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

翻頁爬取果殼問答

本次案例的目的:為了重點介紹一下如何提取響應(yīng)數(shù)據(jù)中的html數(shù)據(jù)。

爬取過程:

1.找到目標的url
2.構(gòu)造請求頭參數(shù)
3.發(fā)送請求,獲取響應(yīng)
4.解析數(shù)據(jù)
5.保存數(shù)據(jù)

爬取過程需要注意的點:

1.創(chuàng)建翻頁
通過requests翻頁爬取數(shù)據(jù),需要創(chuàng)建for循環(huán),并且找到url的規(guī)律并且格式化輸出。

2.添加if判斷語序
由于第一頁的url沒有page參數(shù),所以第一頁的url需要單獨列舉。

3.解析數(shù)據(jù)時,需要通過xpathhelper協(xié)助找到數(shù)據(jù)所在的html節(jié)點

4.在同一個pycharm文件中保存文本數(shù)據(jù)時,寫入方式為“a追加的方式”。

首先找到目標的url:

找到不同頁url的規(guī)律:


由前三頁的url,我們可以的到的規(guī)律是:

第一頁沒有page參數(shù),從第二頁開始,page參數(shù)的值為2,第三頁為3…依次類推,因此,我們for循環(huán)的規(guī)律為如果i=0,那么page參數(shù)就不存在,否則page = i+1 。

解析數(shù)據(jù)


我們鼠標右鍵點擊標題,點擊檢查可以找到問題和回答所在的節(jié)點。

那么檢驗提取數(shù)據(jù)提取的方式就通過xpathhelper來完成:

通過節(jié)點的位置和節(jié)點所攜帶的屬性,對目標文本進行定位。

翻頁規(guī)律和數(shù)據(jù)解析方法已確定,開始我們的代碼:

import requests from lxml import etree import jsonif __name__ == '__main__':# 輸入爬取的頁數(shù)pages = int(input('請輸入要爬取的頁數(shù):'))for i in range(pages):# 確認目標的urlif i == 0:url = 'https://www.guokr.com/i/1948640618/answers/'else:page = i+1url = f'https://www.guokr.com/i/1948640618/answers/?page={page}'# 構(gòu)造請求頭參數(shù)headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36'}# 發(fā)送請求,獲取響應(yīng)response = requests.get(url,headers=headers)# 數(shù)據(jù)為html數(shù)據(jù)str_data = response.textpy_data = etree.HTML(str_data)# 提取目標數(shù)據(jù) 1.問題,2.回答question_list = py_data.xpath('//h4/a[@target="_blank"]/text()')answer_list = py_data.xpath('//li/p/text()')# 保存為字典的形式for i in range(len(question_list)):dict_ = {}dict_[question_list[i]] = answer_list[i]# 將字典轉(zhuǎn)化成json數(shù)據(jù)json_data = json.dumps(dict_,ensure_ascii=False)+',\n'# 保存數(shù)據(jù)with open('翻頁果殼問答3.json','a',encoding='utf-8')as f:f.write(json_data)

我爬取了3頁,因為每一頁的問題和回答的個數(shù)并不是固定的,(第一頁10個,第二頁2個,第三頁7個)得到的數(shù)據(jù)如下:

這里說明一下為什么要用json文件保存數(shù)據(jù):是為了讓字典形式的數(shù)據(jù)更加直觀和美觀,方便我們查看。

總結(jié)

以上是生活随笔為你收集整理的翻页爬取果壳问答的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 肉感丰满的av演员 | 欧美黄色大片免费观看 | 97福利视频| 永久免费视频网站直接看 | 男人和女人插插 | 久草欧美视频 | 国产成人自拍一区 | 爱草在线 | 青青草网址 | 成人黄色免费网址 | 亚洲男人天堂2024 | 特黄特色大片免费播放器使用方法 | www.成人.com | 中文字幕乱码亚洲精品一区 | 亚洲天堂福利视频 | 成人在线免费视频播放 | 麻豆精品自拍 | 6680新视觉电影免费观看 | 亚洲色成人一区二区三区小说 | 国产av不卡一区 | 大尺度做爰床戏呻吟舒畅 | 香蕉视频黄在线观看 | 免费观看日韩av | porn亚洲| 看片日韩| 亚洲精品aⅴ | 国产只有精品 | 国产精品扒开做爽爽爽的视频 | aaaaa毛片 | 亚洲精品字幕在线观看 | 秋霞午夜伦理 | 色欲av伊人久久大香线蕉影院 | 大桥未久恸哭の女教师 | 国产免费自拍视频 | 四虎影视免费永久观看在线 | 99re这里只有精品在线 | 国产成人综合在线观看 | 中文字幕五区 | 免费日韩网站 | 翔田千里88av中文字幕 | 99爱爱 | 轮乱| 国产一区二区不卡在线 | 天天做天天看 | 怡红院院av| 欧美熟妇精品一区二区蜜桃视频 | jizz一区二区 | 国产情侣第一页 | 91看片在线观看 | 第一页综合 | 国产美女激情视频 | 精品无人区无码乱码毛片国产 | 男女视频免费观看 | 明星毛片 | 正在播放国产一区 | 可以免费看毛片的网站 | 国产真实乱 | 亚洲一区在线免费观看 | 在线观看黄色小视频 | 美女啪啪国产 | 伊人一区二区三区 | 嫩草视频国产 | 成人午夜激情网 | 黄网在线观看视频 | 最新视频 - 8mav | 欧美高清一区二区三区四区 | 成熟人妻av无码专区 | 国产精品久久久久久久久久免费看 | 免费观看的av网站 | 李华月全部毛片 | 日本精品视频在线 | 成人午夜视频精品一区 | 欧美人与zoxxxx另类 | xxxx999| 91本色| 狠狠操狠狠操狠狠操 | 成人免费xxxxx在线观看 | 国产成人精品午夜福利Av免费 | 亚洲经典久久 | 肉丝袜脚交视频一区二区 | 波多野结衣久久 | 国产裸体永久免费视频网站 | 看av网站 | 3d动漫啪啪精品一区二区中文字幕 | 欧美日韩高清不卡 | 高清一区二区三区四区 | 亚洲www在线观看 | 日韩精品在线观看AV | 欧美日韩三级 | 五月天婷婷激情 | 国产一级视频在线播放 | 一本一道久久a久久综合蜜桃 | 久久久国产精品黄毛片 | 成 年 人 黄 色 大 片大 全 | 韩国久久久久久 | 亚洲丁香婷婷 | 91av色| 精品国产专区 | 91精品国产一区二区三竹菊影视 |