當前位置：首頁 > 编程语言 > asp.net >内容正文

asp.net

Python学习笔记:常用内建模块7XML

發布時間：2025/3/15 asp.net 17 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python学习笔记:常用内建模块7XML 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

前言

最近在學習深度學習，已經跑出了幾個模型，但Pyhton的基礎不夠扎實，因此，開始補習Python了，大家都推薦廖雪峰的課程，因此，開始了學習，但光學有沒有用，還要和大家討論一下，因此，寫下這些帖子，廖雪峰的課程連接在這里：廖雪峰
Python的相關介紹，以及它的歷史故事和運行機制，可以參見這篇：python介紹
Python的安裝可以參見這篇：Python安裝
Python的運行模式以及輸入輸出可以參見這篇：Python IO
Python的基礎概念介紹，可以參見這篇：Python 基礎
Python字符串和編碼的介紹，可以參見這篇：Python字符串與編碼
Python基本數據結構：list和tuple介紹，可以參見這篇：Python list和tuple
Python控制語句介紹：ifelse，可以參見這篇：Python 條件判斷
Python控制語句介紹：循環實現，可以參見這篇：Python循環語句
Python數據結構：dict和set介紹Python數據結構dict和set
Python函數相關：Python函數
Python高階特性：Python高級特性
Python高階函數：Python高階函數
Python匿名函數：Python匿名函數
Python裝飾器：Python裝飾器
Python偏函數：Python偏函數
Python模塊：Python模塊
Python面向對象編程（1）：Python面向對象
Python面向對象編程（2）：Python面向對象（2）
Python面向對象編程（3）：Python面向對象（3）
Python面向對象編程（4）：Pyhton面向對象（4）
Python面向對象高級編程（上）：Python面向對象高級編程（上）
Python面向對象高級編程（中上）：Python面向對象高級編程（中上）
Python面向對象高級編程（中下）：Python面向對象高級編程（中下）
Python面向對象高級編程（完）：Python面向對象高級編程（完）
Python錯誤調試（起）：Python調試：起
Python錯誤調試（承）：Python調試：承
Python錯誤調試（轉）：Python調試：轉
Python錯誤調試（合）：python調試：合
Python文件IO編程：Python文件IO
Python文件IO編程2：Python文件IO2
Python文件IO編程3：PYthon文件IO3
Python進程和線程（起）：Python進程和線程起
Python進程和線程（承）：Python進程和線程承
Python進程和線程（轉）：Python進程和線程轉
Python進程和線程（合）：Python進程和線程合
Python正則表達式：Python正則表達式
Python學習筆記:常用內建模塊1：Python學習筆記：常用內建模塊1
Python學習筆記:常用內建模塊2：Python學習筆記：常用內建模塊2
Python學習筆記:常用內建模塊3：Python學習筆記：常用內建模塊3
Python學習筆記:常用內建模塊4：Python學習筆記: 常用內建模塊4
Python學習筆記:常用內建模塊5：Python學習筆記: 常用內建模塊5
Python學習筆記:常用內建模塊6:Python學習筆記：常用內建模塊6

XML

XML雖然比JSON復雜，在Web中應用也不如以前多了，不過仍有很多地方在用，所以，有必要了解如何操作XML。

DOM vs SAX

操作XML有兩種方法：DOM和SAX。DOM會把整個XML讀入內存，解析為樹，因此占用內存大，解析慢，優點是可以任意遍歷樹的節點。SAX是流模式，邊讀邊解析，占用內存小，解析快，缺點是我們需要自己處理事件。

正常情況下，優先考慮SAX，因為DOM實在太占內存。

在Python中使用SAX解析XML非常簡潔，通常我們關心的事件是start_element，end_element和char_data，準備好這3個函數，然后就可以解析xml了。

舉個例子，當SAX解析器讀到一個節點時：

<a href="/">python</a>

會產生3個事件：

start_element事件，在讀取<a href="/">時；char_data事件，在讀取python時；end_element事件，在讀取</a>時。

用代碼實驗一下：

from xml.parsers.expat import ParserCreateclass DefaultSaxHandler(object):def start_element(self, name, attrs):print('sax:start_element: %s, attrs: %s' % (name, str(attrs)))def end_element(self, name):print('sax:end_element: %s' % name)def char_data(self, text):print('sax:char_data: %s' % text)xml = r'''<?xml version="1.0"?> <ol><li><a href="/python">Python</a></li><li><a href="/ruby">Ruby</a></li> </ol> '''handler = DefaultSaxHandler() parser = ParserCreate() parser.StartElementHandler = handler.start_element parser.EndElementHandler = handler.end_element parser.CharacterDataHandler = handler.char_data parser.Parse(xml)

需要注意的是讀取一大段字符串時，CharacterDataHandler可能被多次調用，所以需要自己保存起來，在EndElementHandler里面再合并。

除了解析XML外，如何生成XML呢？99%的情況下需要生成的XML結構都是非常簡單的，因此，最簡單也是最有效的生成XML的方法是拼接字符串：

L = [] L.append(r'<?xml version="1.0"?>') L.append(r'<root>') L.append(encode('some & data')) L.append(r'</root>') return ''.join(L)

如果要生成復雜的XML呢？建議你不要用XML，改成JSON。

小結

解析XML時，注意找出自己感興趣的節點，響應事件時，把節點數據保存起來。解析完畢后，就可以處理數據.

練習

請利用SAX編寫程序解析Yahoo的XML格式的天氣預報，獲取天氣預報：
https://query.yahooapis.com/v1/public/yql?q=select%20*%20from%20weather.forecast%20where%20woeid%20%3D%202151330&format=xml

from urllib import request from xml.parsers.expat import ParserCreatedef get_xml(url):with request.urlopen(url) as f:data = f.read()return data.decode('utf-8')class weatherHandler(object):def __init__(self):self.result = {}self.L = []def start_element(self, name, attrs):# print('name:', name, 'attrs:', str(attrs))if 'location' in name:self.result['city'] = attrs['city']if 'date' in str(attrs) and 'day' in str(attrs) and 'high' in str(attrs) and 'low' in str(attrs) and 'weather' in str(attrs):forecase = {'date': attrs['date'],'day': attrs['day'],'high': attrs['high'],'low': attrs['low'],'weather': attrs['text']}self.L.append(forecase)def end_element(self, name):if name == 'query':self.result['forecase'] = self.Ldef char_data(self, text):passdef paseXml(xml_str):handler = weatherHandler()parser = ParserCreate()parser.StartElementHandler = handler.start_elementparser.EndElementHandler = handler.end_elementparser.CharacterDataHandler = handler.char_dataparser.Parse(xml_str)return handler.resultxml_str = get_xml('https://query.yahooapis.com/v1/public/yql?q=select%20*%20from%20weather.forecast%20where%20woeid%20%3D%202151330&format=xml') result = paseXml(xml_str)

HTMLParser

如果我們要編寫一個搜索引擎，第一步是用爬蟲把目標網站的頁面抓下來，第二步就是解析該HTML頁面，看看里面的內容到底是新聞、圖片還是視頻。

假設第一步已經完成了，第二步應該如何解析HTML呢？

HTML本質上是XML的子集，但是HTML的語法沒有XML那么嚴格，所以不能用標準的DOM或SAX來解析HTML。

好在Python提供了HTMLParser來非常方便地解析HTML，只需簡單幾行代碼：

from html.parser import HTMLParser from html.entities import name2codepointclass MyHTMLParser(HTMLParser):def handle_starttag(self, tag, attrs):print('<%s>' % tag)def handle_endtag(self, tag):print('</%s>' % tag)def handle_startendtag(self, tag, attrs):print('<%s/>' % tag)def handle_data(self, data):print(data)def handle_comment(self, data):print('')def handle_entityref(self, name):print('&%s;' % name)def handle_charref(self, name):print('&#%s;' % name)parser = MyHTMLParser() parser.feed('''<html> <head></head> <body> <p>Some <a href=\"#\">html</a> HTML tutorial...<br>END</p> </body></html>''')

feed()方法可以多次調用，也就是不一定一次把整個HTML字符串都塞進去，可以一部分一部分塞進去。

特殊字符有兩種，一種是英文表示的?，一種是數字表示的?，這兩種字符都可以通過Parser解析出來。

小結

利用HTMLParser，可以把網頁中的文本、圖像等解析出來。

練習

找一個網頁，例如https://www.python.org/events/python-events/，用瀏覽器查看源碼并復制，然后嘗試解析一下HTML，輸出Python官網發布的會議時間、名稱和地點。

example

# -*- coding: utf-8 -*- # @Time : 2018/6/16 16:03 # @Author : mike # @Email : jianlongfan@gmail.com # @File : ex_HTMLPASER_2.py # @Software: PyCharmfrom html.parser import HTMLParser from html.entities import name2codepoint from urllib import request import reclass MyHTMLParser(HTMLParser):a_t1 = Falsea_t2 = Falsea_t3 = Falsedef __init__(self):HTMLParser.__init__(self)self.information = []self.information_all = {}def handle_starttag(self, tag, attrs):def _attr(attrlist, attrname):for attr in attrlist:if attr[0] == attrname:return attr[1]return Noneif tag=="time" :self.a_t1 = Trueelif tag=="span" and _attr(attrs, 'class')=="event-location":self.a_t2 = Trueelif tag=="h3" and _attr(attrs, 'class')=="event-title":self.a_t3 = Truedef handle_data(self, data):if self.a_t1 is True:if re.match(r'^\s\d{4}', data):self.information.append(dict(year=data))else:self.information.append(dict(day=data))elif self.a_t2 is True:self.information.append(dict(event_location=data))elif self.a_t3 is True:self.information.append(dict(event_title=data))def handle_endtag(self, tag):if tag == "time":self.a_t1 = Falseelif tag =="span":self.a_t2 = Falseelif tag == "h3":self.a_t3 = Falsedef parseHTML(html_str):parser = MyHTMLParser()parser.feed(html_str)for i, val in enumerate(parser.information):i += 1print(val)if i%4==0:print('--------------------------------------------')URL = 'https://www.python.org/events/python-events/' with request.urlopen(URL, timeout=4) as f:data = f.read()parseHTML(data.decode('utf-8'))

總結

以上是生活随笔為你收集整理的Python学习笔记:常用内建模块7XML的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： php cgi模块,PHP5模块和CGI
下一篇： curl post 日志_curl命令发