日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > 数据库 >内容正文

数据库

Scrapy爬取起点小说网数据导入MongoDB数据库

發(fā)布時間:2023/12/14 数据库 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Scrapy爬取起点小说网数据导入MongoDB数据库 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文中我們將詳細介紹使用Scrapy抓取數(shù)據(jù)并存入MongoDB數(shù)據(jù)庫,首先給出我們需要抓取得數(shù)據(jù):

抓取起點網(wǎng)得全部作品,網(wǎng)址為:https://www.qidian.com/all

關于Scrapy的下載與安裝請移步上篇博客Scrapy簡單案例

關于MongoDB的下載安裝請移步博客MongoDB安裝

下面直接給出相關代碼;

(1) 數(shù)據(jù)封裝類item.py

# -*- coding: utf-8 -*-# Define here the models for your scraped items # # See documentation in: # https://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass NovelItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()link = scrapy.Field()#URLcategory = scrapy.Field()bookname = scrapy.Field()author = scrapy.Field()content = scrapy.Field()

(2)爬蟲主程序

# -*- coding: utf-8 -*- import scrapyfrom novel.items import NovelItemclass SolveSpider(scrapy.Spider):name = "solve"allowed_domains = ["qidian.com"]start_urls = [];for x in range(1,5):#只有5頁start_urls.append("https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=" + str(x))#start_urls = ["https://www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page="]# page_index = ["1", "2", "3", "4", "5", "6", "7","8", "9", "10"]def parse(self, response):nolves = response.xpath('//ul[@class="all-img-list cf"]/li')for each in nolves:# print("***************************")item = NovelItem()part = each.xpath('./div[@class="book-mid-info"]')#print(part)item['bookname'] = part.xpath('./h4/a/text()').extract()[0]item['link'] = part.xpath('./h4/a/@href').extract()[0]item['author'] = part.xpath('./p[@class="author"]/a[@class="name"]/text()').extract()[0]item['category'] = part.xpath('./p[@class="author"]/a/text()').extract()[1]item['content'] = part.xpath('./p[@class="intro"]/text()').extract()[0]yield item

(3)管道pipeline.py

import pymongoclass MongoDBPipeline(object):collection_name = 'scrapy_items'def __init__(self, mongo_uri, mongo_db):self.mongo_uri = mongo_uriself.mongo_db = mongo_db@classmethoddef from_crawler(cls, crawler):return cls(mongo_uri=crawler.settings.get('MONGO_URI'),mongo_db=crawler.settings.get('MONGO_DB'),)def open_spider(self, spider):self.client = pymongo.MongoClient(self.mongo_uri)self.db = self.client[self.mongo_db]self.collection = self.db["novel"]def close_spider(self, spider):self.client.close()def process_item(self, item, spider):self.collection.insert(dict(item))print("插入成功")return item

(4)配置文件

BOT_NAME = 'novel'SPIDER_MODULES = ['novel.spiders'] NEWSPIDER_MODULE = 'novel.spiders' ITEM_PIPELINES = {'novel.pipelines.NovelPipeline':100,}MONGO_URI = "192.168.177.13" MONGO_DB = "novels" MONGO_COLLECTION = "novel" # Crawl responsibly by identifying yourself (and your website) on the user-agent #USER_AGENT = 'novel (+http://www.yourdomain.com)'# Obey robots.txt rules ROBOTSTXT_OBEY = True # 不驗證SSL證書 DOWNLOAD_HANDLERS_BASE = {'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler','http': 'scrapy.core.downloader.handlers.http.HttpDownloadHandler','https': 'scrapy.core.downloader.handlers.http.HttpDownloadHandler','s3': 'scrapy.core.downloader.handlers.s3.S3DownloadHandler', }

(5)查詢結果

總結

以上是生活随笔為你收集整理的Scrapy爬取起点小说网数据导入MongoDB数据库的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 91丨九色丨国产在线 | 久久久久久久久久久久久久久 | 国产女主播在线观看 | 91av视频在线免费观看 | 国产人伦精品一区二区三区 | 久久久免费观看视频 | 天堂男人在线 | 污污在线看 | 精品人妻伦一二三区久 | 成人免费网站www网站高清 | 亚洲日本中文字幕 | 日本美女一区二区三区 | 精品黄色一级片 | 精产国产伦理一二三区 | 国产综合视频一区二区 | 国产中文字幕在线 | 91精品国产综合久久精品 | 深夜免费视频 | 国产经典一区二区三区 | 国产又粗又硬又黄的视频 | 夜夜夜夜爽| 久久综合桃花网 | 一色av | 一本视频在线 | 一区二区精品区 | 欧美资源 | 精品国产999 | 黄色免费成人 | 免费在线观看一区二区 | 一级黄色av| 精品福利一区二区三区 | 国产综合亚洲精品一区二 | 国产成人一区二区 | 伊人久久一区二区 | 天堂在线www | 美女啪啪动态图 | 在线看片中文字幕 | 成年视频在线 | 狠狠干老司机 | 日韩性生交大片免费看 | 日本一区二区在线观看视频 | 国产精品视频一区二区三区在3 | 九九热九九热 | 日韩av资源网 | www一起操| 午夜精品小视频 | 漂亮人妻被中出中文字幕 | 久久午夜无码鲁丝片午夜精品 | 国产伦精品一区二区三区照片 | 亚洲 日本 欧美 中文幕 | 国产口爆吞精一区二区 | 久久久久国产精品一区二区 | 国产免费一区二区三区网站免费 | jizz日韩| 国产97色在线 | 国产精品久久久久毛片软件 | 色性av | 黑人黄色片| 四虎8848精品成人免费网站 | 欧美自拍一区 | 中文字字幕一区二区三区四区五区 | 超碰在线图片 | 国产免费无遮挡吸奶头视频 | 婷婷中文| 免费大片黄在线观看 | 日本体内she精高潮 男女视频在线免费观看 | 国产一级二级三级在线观看 | 久久99影院 | 欧美激情校园春色 | 日本特级黄色片 | 欧美成人精品在线 | 在线观看中文字幕亚洲 | 另类欧美尿交 | 国产亚洲制服欧洲高清一区 | 无码人妻一区二区三区在线 | 999超碰| 亚洲自拍电影 | 日本天堂网在线 | 九九在线 | 日本久久不卡 | 丰满人妻一区二区三区性色 | 一本色道久久hezyo加勒比 | 天堂av免费| 亚洲国产精品久久久久久久 | 久操影视 | 免费人成在线观看视频播放 | 欧美一区二区三区日韩 | 欧美a视频| 就要操就要日 | 日韩精品成人在线 | 98视频在线 | 777奇米色| 日韩毛片在线播放 | 亚洲国产日韩一区二区 | 色婷婷在线视频 | 最近2018年手机中文字幕版 | 欧美日本韩国在线 | 亚洲精品xxx | 日韩高清免费观看 |