當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫练习-爬取《斗破苍穹》全文小说

發(fā)布時間：2023/12/14 编程问答 44 豆豆

生活随笔收集整理的這篇文章主要介紹了爬虫练习-爬取《斗破苍穹》全文小说小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

前言：

爬取《斗破蒼穹》全文小說
目標(biāo)：

將《斗破蒼穹》全文小說爬取下來

保存在一txt文本文件中

使用正則表達式匹配相應(yīng)內(nèi)容

本文為整理代碼，梳理思路，驗證代碼有效性——2019.12.8

環(huán)境：
Python3（Anaconda3）
PyCharm
Chrome瀏覽器

主要模塊：
re
requests
time

1.

分析欲要爬取網(wǎng)頁的網(wǎng)址及其結(jié)構(gòu)，打開Chrome開發(fā)者工具，如下圖我們分析得出http://www.doupoxs.com/doupocangqiong/1.html這里的數(shù)字1即為小說章節(jié)數(shù)，那么我們可以通過fomat的方式對小說章節(jié)鏈接進行遍歷

通過最后一個li標(biāo)簽或者網(wǎng)頁最后的章節(jié)可知，這里有1646章，那么我們的表達式為urls = ['http://www.doupoxs.com/doupocangqiong/{}.html'.format(str(i)) for i in range(1, 1647)]

2.

用正則表達式匹配獲取小說內(nèi)容
分析第一章的網(wǎng)頁結(jié)構(gòu)可以知道小說內(nèi)容均在標(biāo)簽內(nèi)，即我們的正則表達式為contents = re.findall('(.*?)', html, re.S)

3.

將小說內(nèi)容保存到一文本文件中
保存過程比較簡單，“將大象裝進冰箱”三步

“打開冰箱”

# 新建TXT文檔，追加的方式 f = open('doupo.txt', 'a+')

“將大象裝進去”

for content in contents:new_con = str(content).replace('', '').replace('', '')f.write(new_con+'\n') # 正則獲取數(shù)據(jù)寫入TXT文件中 f.write("---------------------------------\n" # 分割線"---------------------------------\n""---------------------------------\n")

“關(guān)上冰箱”

f.close() # 關(guān)閉TXT文件

A.數(shù)據(jù)截圖

B.完整代碼

#!/usr/bin/env python # -*- coding: utf-8 -*-# 導(dǎo)入相應(yīng)的庫文件 import requests import re import time# 加入請求頭 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ''AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}# 定義獲取信息的函數(shù) def get_info(url):res = requests.get(url, headers=headers)html = res.content.decode('utf-8')print(url, res.status_code)if res.status_code == 200: # 判斷請求碼是否為200contents = re.findall('(.*?)', html, re.S)for content in contents:new_con = str(content).replace('', '').replace('', '')f.write(new_con+'\n') # 正則獲取數(shù)據(jù)寫入TXT文件中f.write("---------------------------------\n" # 分割線"---------------------------------\n""---------------------------------\n")# 程序主入口 if __name__ == '__main__':# 構(gòu)造多頁URLurls = ['http://www.doupoxs.com/doupocangqiong/{}.html'.format(str(i)) for i in range(1, 1647)]# 新建TXT文檔，追加的方式f = open('doupo.txt', 'a+')for url in urls:get_info(url) # 循環(huán)調(diào)用get_info()函數(shù)time.sleep(1) # 睡眠1秒f.close() # 關(guān)閉TXT文件

總結(jié)

以上是生活随笔為你收集整理的爬虫练习-爬取《斗破苍穹》全文小说的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：活着
下一篇：软件工程（三）——结构化需求分析（重点