日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

起点小说网小说爬取

發(fā)布時間:2023/12/14 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 起点小说网小说爬取 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

小說目錄和網(wǎng)址的獲取

進(jìn)入官網(wǎng),點擊輸入書名,點擊搜索,進(jìn)入免費試讀。
打開開發(fā)者工具,刷新頁面,找到小說目錄json格式對應(yīng)的網(wǎng)址

先獲取json格式的數(shù)據(jù)

url = 'https://read.qidian.com/ajax/book/category?_csrfToken=pDSSk0OUANaaYIOXJfzVTB27IXwqdBF2qx0MEBqe&bookId=1924072' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0', } response = requests.get(url=url, headers=headers) # 用原編碼格式,防止亂碼 response.encoding = response.apparent_encoding novel_json = json.loads(response.text)

然后獲取json中小說對應(yīng)的章節(jié)以及內(nèi)容所對應(yīng)的部分網(wǎng)址并構(gòu)建小說的網(wǎng)址并保存到本地

# 此書一共10卷,若沒有VIP限制則可全部下載,獲取每一卷的章節(jié)及部分網(wǎng)址 for i in range(1, 11):chapters_info = novel_json['data']['vs'][i]['cs']for item in chapters_info:ids = item['cU']name = item['cN']url = 'https://read.qidian.com/chapter/'url = url + idsresponse = requests.get(url=url, headers=headers)response.encoding = response.apparent_encodinghtml = etree.HTML(response.text)contents = html.xpath('//*[@class="text-wrap"]/div/div[2]/p/text()')length = len(contents)content = ''for p in range(length):content = content + contents[p]content.replace('\u3000\u3000', '')print(content)chapter = name + '\n' + content + '\n'with open('獨步天下.txt', 'a') as f:f.write(chapter)

效果圖如下

下載前兩卷后,vip資源已被封鎖,不過可以從小網(wǎng)站下載。

總結(jié)

以上是生活随笔為你收集整理的起点小说网小说爬取的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。