當前位置：首頁 > 前端技术 > HTML >内容正文

HTML

html text全删,删除没有/ text（）。extract（）的HTML标记

發布時間：2025/3/20 HTML 46 豆豆

生活随笔收集整理的這篇文章主要介紹了 html text全删,删除没有/ text（）。extract（）的HTML标记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

首先，我對此非常陌生，所以請準備好從我復制/粘貼來自各種來源的代碼。

我希望能夠刪除scrapy返回的任何HTML代碼。我已經將所有內容存儲在MySQL中而沒有任何問題，但我無法開始工作的東西就是刪除了很多＆＃39;＆lt; td＆gt;＆＃39;和其他html標簽。我最初只使用/ text()。extract()運行，但隨機地會遇到以這種方式格式化的單元格：

TEXT Text Text Text Text

我沒有選擇使用/ text或不使用的模式，我正在尋找初學者可以實現的最簡單的方法來解決所有問題。

from scrapy.spider import BaseSpider

from scrapy.selector import HtmlXPathSelector

from scrapy.contrib.loader import XPathItemLoader

from scrapy.contrib.loader.processor import Join, MapCompose

import html2text

from scraper.items import LivingSocialDeal

class CFBDVRB(BaseSpider):

name = "cfbdvrb"

allowed_domains = ["url"]

start_urls = [

"url",

]

deals_list_xpath = '//table[@class="tbl data-table"]/tbody/tr'

item_fields = {

'title': './/td[1]',

'link': './/td[2]',

'location': './/td[3]',

'original_price': './/td[4]',

'price': './/td[5]',

}

def parse(self, response):

selector = HtmlXPathSelector(response)

for deal in selector.xpath(self.deals_list_xpath):

loader = XPathItemLoader(LivingSocialDeal(), selector=deal)

# define processors

loader.default_input_processor = MapCompose(unicode.strip)

loader.default_output_processor = Join()

# iterate over fields and add xpaths to the loader

for field, xpath in self.item_fields.iteritems():

loader.add_xpath(field, xpath)

converter = html2text.HTML2Text()

converter.ignore_links = True

yield loader.load_item()

converter = html2text是我最后一次嘗試刪除它的方式，我并不完全確定我是否正確實現了它但它沒有工作。

提前感謝您提供的任何幫助，如果我錯過了一些簡單的快速搜索可能會讓我感到抱歉，我也會道歉。

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的html text全删,删除没有/ text（）。extract（）的HTML标记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：计算机科学AP考试,AP计算机科学A和计
下一篇： html标签anchor,浏览器端-W3

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

HTML

html text全删,删除没有/ text（）。extract（）的HTML标记

總結