日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

用 Python 爬取起点小说网

發(fā)布時(shí)間:2023/12/14 python 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 用 Python 爬取起点小说网 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

目標(biāo)

爬取一本仙俠類的小說下載并保存為txt文件到本地。本例為“大周仙吏”。

項(xiàng)目準(zhǔn)備

軟件:Pycharm

第三方庫:requests,fake_useragent,lxml

網(wǎng)站地址:https://book.qidian.com

網(wǎng)站分析

打開網(wǎng)址:

網(wǎng)址變?yōu)?#xff1a;https://book.qidian.com/info/1020580616#Catalog

判斷是否為靜態(tài)加載網(wǎng)頁,Ctrl+U打開源代碼,Ctrl+F打開搜索框,輸入:第一章。

在這里是可以找到的,判定為靜態(tài)加載。

反爬分析

同一個(gè)ip地址去多次訪問會(huì)面臨被封掉的風(fēng)險(xiǎn),這里采用fake_useragent,產(chǎn)生隨機(jī)的User-Agent請(qǐng)求頭進(jìn)行訪問。

代碼實(shí)現(xiàn)

1.導(dǎo)入相對(duì)應(yīng)的第三方庫,定義一個(gè)class類繼承object,定義init方法繼承self,主函數(shù)main繼承self。
import??requests from?fake_useragent?import?UserAgent from?lxml?import?etree class?photo_spider(object):def?__init__(self):self.url?=?'https://book.qidian.com/info/1020580616#Catalog'ua?=?UserAgent(verify_ssl=False)#隨機(jī)產(chǎn)生user-agentfor?i?in?range(1,?100):self.headers?=?{'User-Agent':?ua.random}def?mian(self):pass if?__name__?==?'__main__':spider?=?qidian()spider.main()
2.發(fā)送請(qǐng)求,獲取網(wǎng)頁。
????def?get_html(self,url):response=requests.get(url,headers=self.headers)html=response.content.decode('utf-8')return?html
3.獲取圖片的鏈接地址。
import?requests from?lxml?import?etree from?fake_useragent?import?UserAgent class?qidian(object):def?__init__(self):self.url?=?'https://book.qidian.com/info/1020580616#Catalog'ua?=?UserAgent(verify_ssl=False)for?i?in?range(1,?100):self.headers?=?{'User-Agent':?ua.random}def?get_html(self,url):response=requests.get(url,headers=self.headers)html=response.content.decode('utf-8')return?htmldef?parse_html(self,html):target=etree.HTML(html)links=target.xpath('//ul[@class="cf"]/li/a/@href')#獲取鏈接names=target.xpath('//ul[@class="cf"]/li/a/text()')#獲取每一章的名字for?link,name?in?zip(links,names):print(name+'\t'+'https:'+link)def?main(self):url=self.urlhtml=self.get_html(url)self.parse_html(html) if?__name__?==?'__main__':spider=qidian()spider.main()

打印結(jié)果:

4.解析鏈接,獲取每一章內(nèi)容。
????def?parse_html(self,html):target=etree.HTML(html)links=target.xpath('//ul[@class="cf"]/li/a/@href')for?link?in?links:host='https:'+link#解析鏈接地址res=requests.get(host,headers=self.headers)c=res.content.decode('utf-8')target=etree.HTML(c)names=target.xpath('//span[@class="content-wrap"]/text()')results=target.xpath('//div[@class="read-content?j_readContent"]/p/text()')for?name?in?names:print(name)for?result?in?results:print(result)

打印結(jié)果:(下面內(nèi)容過多,只貼出一部分。)

5.保存為txt文件到本地。
?with?open('F:/pycharm文件/document/'?+?name?+?'.txt',?'a')?as?f:for?result?in?results:#print(result)f.write(result+'\n')

效果顯示:

打開文件目錄:

完整代碼

import?requests from?lxml?import?etree from?fake_useragent?import?UserAgent class?qidian(object):def?__init__(self):self.url?=?'https://book.qidian.com/info/1020580616#Catalog'ua?=?UserAgent(verify_ssl=False)for?i?in?range(1,?100):self.headers?=?{'User-Agent':?ua.random}def?get_html(self,url):response=requests.get(url,headers=self.headers)html=response.content.decode('utf-8')return?htmldef?parse_html(self,html):target=etree.HTML(html)links=target.xpath('//ul[@class="cf"]/li/a/@href')for?link?in?links:host='https:'+link#解析鏈接地址res=requests.get(host,headers=self.headers)c=res.content.decode('utf-8')target=etree.HTML(c)names=target.xpath('//span[@class="content-wrap"]/text()')results=target.xpath('//div[@class="read-content?j_readContent"]/p/text()')for?name?in?names:print(name)with?open('F:/pycharm文件/document/'?+?name?+?'.txt',?'a')?as?f:for?result?in?results:#print(result)f.write(result+'\n')def?main(self):url=self.urlhtml=self.get_html(url)self.parse_html(html) if?__name__?==?'__main__':spider=qidian()spider.main()

更多閱讀

5 分鐘完全掌握 Python 協(xié)程

程序運(yùn)行慢?你怕是寫的假 Python

賽博朋克科幻文化的起源和意義

特別推薦

程序員摸魚指南

為你精選的硅谷極客資訊,

來自FLAG巨頭開發(fā)者、技術(shù)、創(chuàng)投一手消息


點(diǎn)擊下方閱讀原文加入社區(qū)會(huì)員

總結(jié)

以上是生活随笔為你收集整理的用 Python 爬取起点小说网的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 涩涩视频网站在线观看 | 欧美xxxx网站 | 黄色免费版 | 超碰国产91| 国产二区视频 | 少妇高潮灌满白浆毛片免费看 | 国产精品污www在线观看 | 在线观看国产福利 | 国产精品无码久久久久久电影 | 男人的天堂影院 | 国产精品一二三区视频 | 天天操操夜夜操操 | 国产亚洲精品久久久久久青梅 | 亚洲人体一区 | 天天综合网在线 | 美女131爽爽爽 | 午夜视频成人 | 亚洲一区二区三区影院 | 亚洲精品伦理 | 69亚洲精品久久久蜜桃小说 | 久久天天躁狠狠躁夜夜av | 成人性做爰aaa片免费看不忠 | 欧美 日韩 国产一区 | 成年人看的黄色片 | 国产极品999| 国产一区二区三区免费观看视频 | 国产又粗又猛又色 | 亚洲free性xxxx护士hd | n0659极腔濑亚美莉在线播放播放 | 日韩亚洲欧美在线 | 日本一区二区三区在线观看 | 亚洲伦理中文字幕 | 亚洲成熟少妇视频在线观看 | 奇米婷婷 | 四色成人av永久网址 | 欧美亚洲影院 | 久久天天东北熟女毛茸茸 | 色多多入口| 草逼免费视频 | 精品成人无码一区二区三区 | 亚洲欧美成人一区二区 | 国产精品成人久久久久久久 | 九九影院最新理论片 | 亚洲一区在线不卡 | 国产精品27p | 国产巨乳在线观看 | 日日爽夜夜爽 | 免费人成在线观看视频播放 | 精品一区在线观看视频 | 久草资源在线观看 | 91视频高清 | 成人免费看片又大又黄 | 99精品欧美一区二区蜜桃免费 | 国产伦人伦偷精品视频 | 激情综合影院 | 韩国日本在线 | 精彩毛片 | wwwxxx在线播放 | 美女网站视频在线观看 | 亚洲大尺度在线观看 | 亚洲成a人在线观看 | 99黄色网 | 青青草在线播放 | 日韩一区视频在线 | 中国黄色在线视频 | 在线视频欧美日韩 | 成人免费黄色网址 | 国产乱性 | 中文字幕乱码人妻一区二区三区 | 原创少妇半推半就88av | 啪啪av网 | 男人和女人在床的app | 免费成人深夜小野草 | av片免费 | 男女性杂交内射妇女bbwxz | 美女毛毛片 | 国产乱一区二区三区 | 国产一区在线免费 | 日韩精品 欧美 | 免费看一级一片 | 女同视频网站 | 91最新在线视频 | 黄色女女 | 无码人妻一区二区三区av | 成年人免费网站在线观看 | 日本啊啊视频 | 亚洲小说专区 | 女人脱下裤子让男人桶 | 亚洲区在线 | 亚洲国产电影在线观看 | 亚洲精品影视 | 手机在线看永久av片免费 | 无限资源日本好片 | 夜色快播| 美女隐私免费看 | 男男一级淫片免费播放 | 欧美www视频 | 美日韩成人av | 日韩精品在线免费观看视频 |