日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

看小说有广告?不可能的,分分钟教你爬取小说

發(fā)布時間:2025/3/19 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 看小说有广告?不可能的,分分钟教你爬取小说 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

爬取小說

  • 效果
  • 分析網(wǎng)頁
  • 正則表達式分析
  • 請求頭分析
  • 完整代碼
  • 可能出現(xiàn)的錯誤

效果

分析網(wǎng)頁


我們可以看到 小說的章節(jié)的標題與對應的鏈接是在<dd></dd>這個節(jié)點中的。

進入一章,

我們可以看到 小說內(nèi)容是在一個id = "content的div 容器中。

正則表達式分析

<dd>.*</dd>

獲得:

<dd><a href='/55/55945/23396080.html' >第一章 我有三個相宮</a></dd>

過濾出URL和標題

href=..([^>"]*)..>(.*)</a>

其中([^>"]*)和(.*) 被稱為組。
所以有

# 組成完整的URLurl = 'https://www.xbiquge.la/'+g.group(1)# 獲取標題title = g.group(2)

請求頭分析

網(wǎng)址是:https://www.xbiquge.la/0/55945/

  • ’Host':一般來說 是從左數(shù)第一個// 和/之間的。所以這里是www.xbiquge.la
  • Cookie:是在一個分號的后邊的數(shù)據(jù)。
    如:

請求頭:

headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36','Host' :'www.xbiquge.la', 'cookie': 'Hm_lpvt_169609146ffe5972484b0957bd1b46d6=1629598903' }

完整代碼

import requests import relink = 'https://www.xbiquge.la/0/55945/'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36','Host' :'www.xbiquge.la', 'cookie': 'Hm_lpvt_169609146ffe5972484b0957bd1b46d6=1629598903' } #獲取小說鏈接得到小說目錄和對應的URL def getCatelogs(url):# 發(fā)送請求req = requests.get(link,headers=headers,allow_redirects=False)result = []if req.status_code == 200:# 獲取 HTML 內(nèi)容html = req.textaList =re.findall('<dd>.*</dd>',html)print(aList)for a in aList:g = re.search('href=..([^>"]*)..>(.*)</a>', a)if g != None:# 組成完整的URLurl = 'https://www.xbiquge.la/'+g.group(1)# 獲取標題title = g.group(2)# 創(chuàng)建一個對象,用于保存標題和URLchapter = {'title':title,'url':url}result.append(chapter)return result # 根據(jù)章節(jié)目錄,抓取目錄對應的URL指定的小說正文頁面 def getContent(chapters):for chapter in chapters:url = chapter['url']r = requests.get(url,headers=headers)r.encoding = 'utf-8' #避免亂碼if r.status_code == 200:# 打開novel1目錄(自己創(chuàng)建即可),以標題命名f = open('novel/'+chapter['title']+'.txt','a+')# 將內(nèi)容提取出來contents = re.findall('&nbsp;&nbsp;&nbsp;&nbsp;(.*)<',r.text)for content in contents:f.write(content)f.close()print(chapter['title'],chapter['url'])getContent(getCatelogs(link))

可能出現(xiàn)的錯誤

  • 中文亂碼,導致無法存進文件:r.encoding = 'utf-8' #避免亂碼解決。
  • 在這里提取到的是相對路徑:需要補充。補充的依據(jù)情況不同。如這里是https://www.xbiquge.la/
分析網(wǎng)頁的話,盡量別用正則表達式把,要吐血的。

總結(jié)

以上是生活随笔為你收集整理的看小说有广告?不可能的,分分钟教你爬取小说的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 深夜福利网站在线观看 | 91久久网| 国产精品一二区 | 五月激情小说网 | 国产视频综合 | 三级av免费 | 福利视频亚洲 | wwwwww色 | 搡老熟女国产 | 精品一区二区日韩 | 在线播放你懂得 | 无码人妻丰满熟妇区毛片18 | 免费看的av网站 | 亚洲尹人 | 国产一区二区三区四区五区在线 | 日韩视频一区二区三区在线播放免费观看 | 亚洲欧美精品一区二区三区 | 成人深夜福利视频 | 天天干天天色天天 | 69中国xxxxxxxxx69 国产又爽又色 | 手机av网址| 激情图片网站 | 天堂综合网 | 无码一区二区三区免费视频 | 香蕉综合视频 | 黄色片在哪里看 | 久久一 | 国产精品精品国产色婷婷 | 体内精视频xxxxx | 国产一区二区免费在线 | 欧美aa视频 | 99超碰在线观看 | 久久久性视频 | 97香蕉久久夜色精品国产 | 欧美激情视频在线观看 | 亚洲av网址在线 | 青青伊人av| 国产成人观看 | 五月天91 | 爱情岛av永久入口 | 日本美女啪啪 | 欧美xxxxhd| 伊人精品在线观看 | 少妇按摩一区二区三区 | 操校花视频 | 韩国三级视频在线 | 夜夜操夜夜干 | 色悠久 | 五月情婷婷 | 91夜色| 久久人人视频 | 91小仙女jk白丝袜呻吟 | 色吧综合| 国产视频一区在线播放 | 毛片网在线 | 一级黄色大片在线观看 | 日本成人在线视频网站 | 在线不欧美 | 欧美大色| 91免费在线播放 | 免费色播 | 国产在线一卡二卡 | 亚洲欧美国产一区二区三区 | 四虎一区二区三区 | 国产盗摄精品 | 足疗店女技师按摩毛片 | 国产一级淫片a视频免费观看 | 国产成人精品一区二区三区在线观看 | 亚洲一区二区中文 | 国精产品一区一区三区免费视频 | 人人妻人人澡人人爽久久av | 麻豆精品国产精华精华液好用吗 | 精品久久久久久久久久岛国gif | 久久男人天堂 | 午夜精品久久久久久久99老熟妇 | 成人午夜小视频 | 欧洲美女与动交ccoo | 一区二区三区三区在线 | 一区二区三区四区在线视频 | 男人天堂中文字幕 | av网页在线观看 | 日韩欧美国产网站 | 久久福利免费视频 | 蜜臀视频一区二区三区 | 一区二区三区免费看视频 | 亚洲一级网站 | 亚洲国产97在线精品一区 | 91插插视频| 高h捆绑拘束调教小说 | 澳门久久久 | 好吊视频一区二区 | 欧美另类视频在线 | 亲子乱一区二区三区 | 久操福利在线 | 性色av一区二区三区红粉影视 | 久久人人添人人爽添人人片 | 激情六月丁香 | 精品一区二区国产 | 亚洲自拍av在线 |