python解析xml文件elementtree_Python中使用ElementTree解析XML示例
【XML基本概念介紹】
XML 指可擴展標記語言(eXtensible Markup Language)。
XML 被設計用來傳輸和存儲數據。
概念一:
復制代碼 代碼如下:
????? # foo元素的起始標簽
???? # foo元素的結束標簽
# note: 每一個起始標簽必須有對應的結束標簽來閉合, 也可以寫成
概念二:
復制代碼 代碼如下:
?????????? # 元素可以嵌套到任意參次
?? # bar元素為foo元素的子元素
????????? # 父元素foo的結束標簽
概念三:
復制代碼 代碼如下:
????????????????? # foo元素有個lang的屬性,該屬性值為: EN;對應Python字典(Name-Value)對;
# bar元素有個lang的屬性,該屬性值為: CH;還有個id屬性,值為:001,放置在''或“”中;
?????????????????????????? # bar元素中的lang屬性不會和foo元素中相沖突,每個元素都有獨立的屬性集;
概念四:
復制代碼 代碼如下:
Learning Python # 元素可以有文本內容# Note:如果一個元素即沒有文本內容,也沒有子元素,則為空元素。
概念五:
復制代碼 代碼如下:
????????????????????????????????? # info元素為根節點
A ?????????? # list元素為子節點
B
C
概念六:
復制代碼 代碼如下:
? # 可以通過聲明xmlns來定義默認名字空間,feed元素處于http://www.w3.org/2005/Atom命名空間中
dive into mark???????????? # title元素也是。名字空間聲明不僅會作用于當前聲明它的元素,還會影響到該元素的所有子元素也可以通過xmlns:prefix聲明來定義一個名字空間并取其名為prefix。
然后該名字空間中的每個元素都必須顯式地使用這個前綴(prefix)來聲明。
? # feed屬于命名空間atom
dive into mark???????????? # title元素同樣屬于該命名空間????????????????????????????????????????? # xmlns(XML Name Space)
【XML幾種解析方法】
常見的XML編程接口有DOM和SAX,這兩種接口處理XML文件的方式不同,使用場合自然也就不同。
Python有三種方法解析XML: SAX,DOM,以及ElementTree:
1.SAX (Simple API for XML )
Pyhton標準庫包含SAX解析器,SAX用事件驅動模型,通過在解析XML的過程中觸發一個個的事件并調用用戶定義的回調函數來處理XML文件。SAX是一種基于事件驅動的API。利用SAX解析XML文檔牽涉到兩個部分:解析器和事件處理器。
解析器負責讀取XML文檔,并向事件處理器發送事件,如元素開始及結束事件;而事件處理器則負責對事件作出處理。
優點:SAX流式讀取XML文件,比較快,占用內存少。
缺點:需要用戶實現回調函數(handler)。
2.DOM(Document Object Model)
將XML數據在內存中解析成一個樹,通過對樹的操作來操作XML。一個DOM的解析器在解析一個XML文檔時,一次性讀取整個文檔,把文檔中所有元素保存在內存中的一個樹結構里,之后你可以利用DOM提供的不同的函數來讀取或修改文檔的內容和結構,也可以把修改過的內容寫入xml文件。
優點:使用DOM的好處是你不需要對狀態進行追蹤,因為每一個節點都知道誰是它的父節點,誰是子節點.
缺點:DOM需要將XML數據映射到內存中的樹,一是比較慢,二是比較耗內存,使用起來也比較麻煩!
3.ElementTree(元素樹)
ElementTree就像一個輕量級的DOM,具有方便友好的API。代碼可用性好,速度快,消耗內存少。
相比而言,第三種方法,即方便,又快速,我們一直用它!下面介紹用元素樹如何解析XML:
【ElementTree解析】
兩種實現
ElementTree生來就是為了處理XML ,它在Python標準庫中有兩種實現。
一種是純Python實現,例如: xml.etree.ElementTree
另外一種是速度快一點的:?? xml.etree.cElementTree
盡量使用C語言實現的那種,因為它速度更快,而且消耗的內存更少! 在程序中可以這樣寫:
復制代碼 代碼如下:
try:
import xml.etree.cElementTree as ET
except ImportError:
import xml.etree.ElementTree as ET
常用方法
復制代碼 代碼如下:
# 當要獲取屬性值時,用attrib方法。
# 當要獲取節點值時,用text方法。
# 當要獲取節點名時,用tag方法。
示例XML
復制代碼 代碼如下:
Book message
python check
001
200
python learn
002
300
###########
##? 加載XML
###########
方法一:加載文件
復制代碼 代碼如下:
root = ET.parse('book.xml')
方法二:加載字符串
復制代碼 代碼如下:
root = ET.fromstring(xmltext)
###########
## 獲取節點
###########
方法一:獲得指定節點->getiterator()方法
復制代碼 代碼如下:
book_node = root.getiterator('list')
方法二:獲得指定節點->findall()方法
復制代碼 代碼如下:
book_node = root.findall('list')
方法三:獲得指定節點->find()方法
復制代碼 代碼如下:
book_node = root.find('list')
方法四:獲得兒子節點->getchildren()
復制代碼 代碼如下:
for node in book_node:
book_node_child = node.getchildren()[0]
print book_node_child.tag, '=> ', book_node_child.text
###########
##? 例子01
###########
復制代碼 代碼如下:
# coding=utf-8
try:?????????????????????????????????????????? # 導入模塊
import xml.etree.cElementTree as ET
except ImportError:
import xml.etree.ElementTree as ET
root?? = ET.parse('book.xml')???????????????? # 分析XML文件
books? = root.findall('/list')??????????????? # 查找所有根目錄下的list的子節點
for book_list in books:?????????????????????? # 對查找后的結果遍歷
print "=" * 30??????????????????????????? # 輸出格式
for book in book_list:??????????????????? # 對每個子節點再進行遍歷,找出里面你的屬性及值
if book.attrib.has_key('id'):???????? # 一句id來做條件判斷
print "id:", book.attrib['id']??? # 根據id打印出屬性值
print book.tag + '=> ' + book.text??? # 輸出標簽及文本內容
print "=" * 30
輸出結果:
復制代碼 代碼如下:
==============================
head=> bookone
name=> python check
number=> 001
page=> 200
==============================
head=> booktwo
name=> python learn
number=> 002
page=> 300
==============================
PS:這里再為大家提供幾款關于xml操作的在線工具供大家參考使用:
在線XML/JSON互相轉換工具:http://tools.jb51.net/code/xmljson
在線格式化XML/在線壓縮XML:http://tools.jb51.net/code/xmlformat
XML在線壓縮/格式化工具:http://tools.jb51.net/code/xml_format_compress
本文標題: Python中使用ElementTree解析XML示例
本文地址: http://www.cppcns.com/jiaoben/python/125735.html
總結
以上是生活随笔為你收集整理的python解析xml文件elementtree_Python中使用ElementTree解析XML示例的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python propresql mys
- 下一篇: python段错误原因_python