日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

scrapy爬取百万小说

發布時間:2025/1/21 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 scrapy爬取百万小说 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

#爬取小說實列
第一步:創建一個scrapy工程【命令行中輸入 scrapy startproject demo
第二步:進入這個工程中,創建一個爬蟲scrapy nss zhuangji.org
:nss文件
第三部:在spiders中進入到這個nss.py這個文件
I:出現一個NssSpider類(spider.Spider),其中有三個成員變量【name&start_urls
II有一個parse解析的方法【用response.xpath(’’).extract_first() || .extract()】就可以了
III: yield返回字典即可{}
IV: 得到下一個url
V:再進行自身調用【yield.scrapy.Request(next_url,callback=self.parse)】【parse沒有()】
:main文件【運行文件,extract函數】(可以為任意的名字)
【標準代碼】:

from scrapy.cmdline import execute execute("scrapy crawl nns".split()) //或者使用如下的方法 execute(["scrapy","crawl","nns"])

:pipelines文件
第一步:創建并打開一個文件
第二本:進行寫入
第三部:文件的關閉

setttings文件
USER-AGENT: 需要重寫寫入
ROBOTTEXT_OBEY: False
ITEM_PIPELINES: 開啟(原本是注釋掉的【ctrl+/】)

爬取小說的代碼如下:
I:nss文件

import scrapyclass NssSpider(scrapy.Spider):name = 'nss'# allowed_domains = ['zhuangji.org']start_urls = ['https://www.zhuaji.org/read/785/320784.html']def parse(self, response):title=response.xpath('//div[@class="title"]/h1/text()').extract_first()content=''.join(response.xpath('//div[@id="content"]/text()').extract())yield{"title":title,"content":content,}next_url=response.xpath('//div[@class="page"]/a[4]/@href').extract_first()base_url='https://www.zhuaji.org{0}'.format(next_url)yield scrapy.Request(base_url,callback=self.parse)

Ⅱ:pipelines文件:

calss Demo3Pipeline(object):def open_spider(self,spider):self.file=open("xs.txt","w",encoding="utf-8")def process_item(self, item,spider):title=item["title"]content=item["content"]info=title+"\n"+content+"\n"self.file.write(info)return itemdef close_file(self,spider):self.file.close()

爬取小說引起的問題:文件大小大于2.56M,自動中斷
解決方法:打開pacharm中的bin目錄下的idea.properties的這個文件
dea.max.intellisense.filesize 參數改為99999

總結

以上是生活随笔為你收集整理的scrapy爬取百万小说的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。