日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 前端技术 > HTML >内容正文

HTML

html text全删,删除没有/ text()。extract()的HTML标记

發布時間:2025/3/20 HTML 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 html text全删,删除没有/ text()。extract()的HTML标记 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

首先,我對此非常陌生,所以請準備好從我復制/粘貼來自各種來源的代碼。

我希望能夠刪除scrapy返回的任何HTML代碼。我已經將所有內容存儲在MySQL中而沒有任何問題,但我無法開始工作的東西就是刪除了很多'< td>'和其他html標簽。我最初只使用/ text()。extract()運行,但隨機地會遇到以這種方式格式化的單元格:

TEXT Text Text Text Text

我沒有選擇使用/ text或不使用的模式,我正在尋找初學者可以實現的最簡單的方法來解決所有問題。

from scrapy.spider import BaseSpider

from scrapy.selector import HtmlXPathSelector

from scrapy.contrib.loader import XPathItemLoader

from scrapy.contrib.loader.processor import Join, MapCompose

import html2text

from scraper.items import LivingSocialDeal

class CFBDVRB(BaseSpider):

name = "cfbdvrb"

allowed_domains = ["url"]

start_urls = [

"url",

]

deals_list_xpath = '//table[@class="tbl data-table"]/tbody/tr'

item_fields = {

'title': './/td[1]',

'link': './/td[2]',

'location': './/td[3]',

'original_price': './/td[4]',

'price': './/td[5]',

}

def parse(self, response):

selector = HtmlXPathSelector(response)

for deal in selector.xpath(self.deals_list_xpath):

loader = XPathItemLoader(LivingSocialDeal(), selector=deal)

# define processors

loader.default_input_processor = MapCompose(unicode.strip)

loader.default_output_processor = Join()

# iterate over fields and add xpaths to the loader

for field, xpath in self.item_fields.iteritems():

loader.add_xpath(field, xpath)

converter = html2text.HTML2Text()

converter.ignore_links = True

yield loader.load_item()

converter = html2text是我最后一次嘗試刪除它的方式,我并不完全確定我是否正確實現了它但它沒有工作。

提前感謝您提供的任何幫助,如果我錯過了一些簡單的快速搜索可能會讓我感到抱歉,我也會道歉。

與50位技術專家面對面20年技術見證,附贈技術全景圖

總結

以上是生活随笔為你收集整理的html text全删,删除没有/ text()。extract()的HTML标记的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。