生活随笔
收集整理的這篇文章主要介紹了
页面元素解析 原
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1.解析字段信息
-
我們知道蜘蛛運行時會下載要爬取的頁面,然后傳給給start_urls,頁面的返回對象response響應體就會封裝到parse方法response對象里面,然后通過response對象css選擇器定位元素,返回一個selector對象,通過extract()方法來提取selector對象中標簽的信息。
-
那現在我們使用dribbble網站來試著解析字段信息,創建一個dribbble蜘蛛,就和之前創建csdn一樣,然后將測試頁面中的execute()方法中的參數改為需要測試的蜘蛛頁面中的name屬性值。
import scrapy
from urllib import parse
from scrapy.http import Request class DribbbleSpider(scrapy.Spider): name = 'dribbble' allowed_domains = ['dribbble.com'] start_urls = ['https://dribbble.com/stories'] def parse(self, response): 2.構建數據模型
- 我們在創建模板時會自動生成一些文件,items.py文件就是其中一個,我們構建數據模型就需要用到這個文件,這個文件會自動生成一個modle,這個modle會繼承scrapy.Item,然后我們可以根據我們的需求在自動生成的這個modle中隨意創建字段;
import scrapy
class XkdDribbbleSpiderItem(scrapy.Item): title = scrapy.Field() a_image_url = scrapy.Field() date = scrapy.Field() - 創建好字段之后,需要在spider中添加構建模型,最后讓構建模型中的字段和之前modle中的字段名一致,防止賦值出錯; 在spider中添加構建模型首先需要實例化items.py文件中的modle,然后通過實例化對象添加字段到modle中,最后將數據模型進行落地,讓數據持久化。把實例化對象返回到pipelines.py中;
import scrapy
from urllib import parse
from scrapy.http import Request from ..items import XkdDribbbleSpiderItem from datetime import datetime class DribbbleSpider(scrapy.Spider): name = 'dribbble' allowed_domains = ['dribbble.com'] start_urls = ['https://dribbble.com/stories'www.bdqxylgw.com] def parse(self, response):
轉載于:https://www.cnblogs.com/qwangxiao/p/11088239.html
總結
以上是生活随笔為你收集整理的页面元素解析 原的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。