當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

python爬虫爬取《斗破苍穹》小说全文

發(fā)布時(shí)間：2023/12/14 python 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬虫爬取《斗破苍穹》小说全文小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

網(wǎng)絡(luò)爬蟲的入門學(xué)習(xí)：python爬蟲爬取小說(shuō)全文

python爬蟲首先導(dǎo)入基本爬蟲庫(kù)requests：import requests,安裝命令pip install requests，使用pycharm可以直接在settings中下載

導(dǎo)入解析HTML標(biāo)簽的python庫(kù)bs4，同樣需要下載，pip install bs4,也可以直接在pycharm的settings中下載，其實(shí)在解析HTML代碼中只需要導(dǎo)入BeautifulSoup類就可以實(shí)現(xiàn)相應(yīng)功能，代碼為from bs4 import BeautifulSoup

要永久保存說(shuō)就需要用到和文件相關(guān)的庫(kù)os
import os

首先需要?jiǎng)?chuàng)建相應(yīng)文件來(lái)保存小說(shuō)

if not os.path.exists('D:/斗破蒼穹'):os.mkdir('D:/斗破蒼穹')###創(chuàng)建目錄

設(shè)置url,偽裝UA(User-Agent)

url1='https://www.rmxs8.com/10121/' url2='https://www.rmxs8.com/10121_2/' headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)' }#使用字典中的鍵值對(duì)來(lái)替換原本的User-Agent #原小說(shuō)有兩個(gè)網(wǎng)址存放的都是斗破蒼穹的目錄所以需要設(shè)置兩個(gè)url

對(duì)網(wǎng)頁(yè)發(fā)起請(qǐng)求得到一個(gè)response對(duì)象

response1=requests.get(url=url1,headers=headers) response2=requests.get(url=url2,headers=headers)

分析網(wǎng)頁(yè)HTML標(biāo)簽，打開(kāi)網(wǎng)頁(yè)抓包工具，進(jìn)入網(wǎng)頁(yè)點(diǎn)擊鼠標(biāo)右鍵，點(diǎn)擊檢查，就會(huì)出現(xiàn)如圖右側(cè)：
觀察HTML標(biāo)簽可以看出小說(shuō)目錄名都在 <div class=novel_list id=novel10121>的標(biāo)簽內(nèi)的<a href="網(wǎng)址">章節(jié)標(biāo)題</a>中，我們需要從HTML代碼中提取出每一章的標(biāo)題并且通過(guò)a標(biāo)簽中的網(wǎng)址進(jìn)入詳情頁(yè)提取出章節(jié)內(nèi)容，這時(shí)就需要用到bs4庫(kù)中的BeautifulSoup類

text1=response1.text#返回網(wǎng)頁(yè)1HTML代碼 text2=response2.text#...網(wǎng)頁(yè)2html... soup1=BeautifulSoup(text1,'lxml') soup2=BeautifulSoup(text2,'lxml') #BeautifulSoup需要傳入兩個(gè)參數(shù)，一個(gè)是HTML代碼，另一個(gè)則是需 #要采用的HTML解析器，除了lxml以外還可以使用html.parser（自帶 #解析器），而lxml需要下載lxml庫(kù) a_list1=soup1.select('#novel10121.novel_list a') a_list2=soup2.select('#novel10121.novel_list a') #select方法的層級(jí)選擇器，.代表類選擇器，#代表id選擇器，而我們 #需要爬取的小說(shuō)內(nèi)容在該類和id的<a>標(biāo)簽中,空格' '代表跳級(jí)選擇 #下一級(jí)的選擇需要通過(guò)'>'符號(hào)來(lái)選擇，例如select(#novel10121 # > li)就代表id=novel10121的下一級(jí)的li標(biāo)簽 a_list=a_list1+a_list2 #將所有的a標(biāo)簽都存入a_list列表中，方便后面的遍歷

遍歷剛才得到的所有a標(biāo)簽,每一章節(jié)的標(biāo)題都在a標(biāo)簽中，只需要遍歷列表，取出每一章節(jié)的名字，創(chuàng)建txt文件保存，并且得到詳情頁(yè)的網(wǎng)址，進(jìn)行訪問(wèn)得到小說(shuō)的內(nèi)容保存至文件中

for a in a_list:chapter_title=a.string#string可以獲取<a>標(biāo)簽里的文本內(nèi)容chapter_url=a['href']#觀察可得網(wǎng)址總是在<a>標(biāo)簽的href中,將其中網(wǎng)址取出即可chapter_response=resquests.get(url=chapter_url,headers=headers)#獲取詳情頁(yè)的響應(yīng)對(duì)象chapter_soup=Beautiful(chapter_response.text,'lxml')#再次用bs4來(lái)解析新獲得的HTML標(biāo)簽chapter_content=chapter_soup.find('div',class_='content').text#進(jìn)入詳情頁(yè)同樣通過(guò)抓包工具發(fā)現(xiàn)小說(shuō)內(nèi)容都在.content之下只要取出這個(gè)div下的所有文本信息就可以完成提取。with open('D:/斗破蒼穹/'+chapter_title+'.txt','w',encoding='utf-8') as fp:fp.write(chapter_content)#將提取的小說(shuō)內(nèi)容保存至文件中fp.close()#關(guān)閉文件（其實(shí)不管也行）chapter_response.close（）#切斷與當(dāng)前網(wǎng)址的聯(lián)系，否則由于程序過(guò)于頻繁的訪問(wèn)網(wǎng)站可能會(huì)讓網(wǎng)站誤以為是攻擊行為從而切斷聯(lián)系

總結(jié)：以上是所有的步驟，下面是完整的代碼，有興趣的小伙伴可以直接復(fù)制粘貼運(yùn)行（但是要確保所有有需要的庫(kù)的下載完畢，否則會(huì)報(bào)一堆錯(cuò)<#-#>）

import requests import os from bs4 import BeautifulSoup if not os.path.exists('D:/斗破蒼穹'):os.mkdir('D:/斗破蒼穹') url='https://www.rmxs8.com/10121/' headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)' } response1=requests.get(url=url,headers=headers) response2=requests.get(url='https://www.rmxs8.com/10121_2/') page_text1=response1.text page_text2=response2.text soup1=BeautifulSoup(page_text1,'lxml') soup2=BeautifulSoup(page_text2,'lxml') a_list1=soup1.select('#novel10121.novel_list a') a_list2=soup2.select('#novel10121.novel_list a') a_list=a_list1+a_list2 for a in a_list:chapter_title=a.stringif chapter_title[0:4]=='斗破蒼穹':title_list=list(chapter_title)for i in range(4):title_list.pop(0)title_str=''for i in range(len(title_list)):title_str+=title_list[i]chapter_title=title_strchapter_url='https://www.rmxs8.com'+a['href']chapter_response=requests.get(url=chapter_url,headers=headers)chapter_text=chapter_response.textchapter_soup=BeautifulSoup(chapter_text,'lxml')chapter_content=chapter_soup.find('div',class_='content').textwith open('D:/斗破蒼穹/'+chapter_title+'.txt','w',encoding='utf-8') as fp:fp.write(chapter_content)fp.close()chapter_response.close()print(chapter_title,'下載完成！！！')

以下是運(yùn)行結(jié)果

總結(jié)

以上是生活随笔為你收集整理的python爬虫爬取《斗破苍穹》小说全文的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： android获取悬浮窗权限,Andro
下一篇：用Python爬取猫眼数据分析《无名之辈

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python爬虫爬取《斗破苍穹》小说全文

網(wǎng)絡(luò)爬蟲的入門學(xué)習(xí)：python爬蟲爬取小說(shuō)全文

總結(jié)