「Python」 ElementTree模块解析xml文件,建议小白阅读全文
背景
Python有三種方法解析xml:SAX,DOM,Elementree。本文記錄ElementTree方法解析xml。
目前自己用的是Python3.6,但在該版本中并沒有xml的縮進函數ET.indent,不過就我所知3.9版本是有的,所以當前3.6寫出來的xml是無法調用函數來美化xml排版,文中的xml排版是手動擋 :)。當然,也可以寫個函數來自動優化。
正文
xml是一種固有的分層數據格式,最好的描述方式就是使用樹形結構。在ElementTree模塊中,使用ElementTree對象來表示一棵樹,Element對象來表示樹中的一個單一結點。讀取、寫入一個xml文件一般都是在ElementTree層面上操作,而對xml元素(結點)及其子元素(子結點)的操作是在Element層面上進行。
說明:下面的內容有時候使用明確的node名稱來代替Element進行操作,有時候使用Element泛指一個結點。ElementTree和Element是一個類,創建一棵樹tree或者一個結點node相當于類的實例化。
解析xml文件
import xml.etree.ElementTree as ET # 導入ElementTree模塊 tree = ET.parse(xml_file_path) # 解析xml文件,得到樹形結構 root = tree.getroot() # 獲取根節點結點基礎:node.tag,node.attrib,node.get(),node.text
每個結點都有標簽(tag)和屬性(attrib),標簽名一般不為空,屬性可為空,比如:
<data, attrib=[]><daughter_node, name="child_1", age="20"><chichild_node>...</chichild_node></daughter_node>...<daughter_node>2021</daughter_node><son_node>...<son_node>...<son_node>...<son_node> </data>上面為一個根結點及其子結點的例子,根結點的標簽名為data,沒有屬性(attrib為空:[])。注意區分結點的屬性和結點的子結點,屬性包含在結點的括號<>中,而子結點是夾在一對標簽內。獲取一個結點的標簽和屬性(此處結點為根節點):
root.tag # 返回結點的標簽名data root.atrrib # 返回結點的屬性,此時根節點的屬性為[]而對于非空屬性的結點,其屬性可以單個或者多個,比如下面這個結點child node,它帶有兩個屬性name和age:
<child_node, name="child_1" age="20">... </child_node>可以使用如下代碼來訪問child_node屬性:
child_node.attrib # 返回一個字典,字典包含每個屬性名和屬性內容 child_node.get("name") # 返回name屬性的屬性內容:child_1假定C結點(node結點)沒有子結點,但夾有文本信息:
<node>2021</node>則要獲取node結點的文本信息,有:
node.text # 返回“2021”結點拔高:遍歷,索引,遍歷指定結點Element.iter(),查找指定結點Element.findall()
-
有子結點的父結點是可迭代循環的,可以用for循環遍歷父結點的所有子結點
for child in root:print((child.tag, child.attrib)) -
通過索引的方式獲取結點
node = root[0][1]此處表示返回root結點(A)的第0個子結點(B)的第1個子結點(C),ABC三個的關系是,A是B的父節點,A是C的爺爺節點,B是C的父節點。
-
指定遍歷某一類結點
假定要遍歷上面例子中data結點下的所有daughter_node,則可以使用Element.iter()來指定遍歷結點:
for daughter in data.iter("daughter_node"):print(daughter.tag)print(daughter.attrib)ps:可以用data.findall()替換data.iter(),進行同樣的迭代,但區別在哪里自己探索吧。
創建xml并保存
- 創建結點:ElementTree.Element()
- 創建樹形結構:ElementTree.ElementTree()
- 保存為xml文件:ElementTree.write()
- 添加子結點:ElementTree.append()
要創建xml文件,那首先就要創建一個樹形結構,對于樹形結構,肯定是在ElementTree這個層次上創建,相當于創建了一個樹架子,而Element是創建結點,創建樹架子和結點后,你需要將Element結點掛到樹架子ElementTree上,因此:
xml_2_path = r"path\to\save\your\xml\file.xml" root = ET.Element("data", {"year":"2021", "age":"21"}) # 創建根節點 new_tree = ET.ElementTree(element=root) # 創建樹形結構,再將根節點傳遞到樹中 child = ET.Element("child_1") # 創建一個結點 child.text = "Anya" # 創界該結點的text內容 root.append(child) # 將該結點連接到根結點root,此時該結點便成了root的子結點 new_tree.write(xml_2_path)修改xml
- 修改文本:node.text = 2022
- 修改屬性:node.set()
- 移除結點:Element.remove()
- 查找特定結點:Element.findall()
假定目前已有xml文件如下:
<data, attrib=[]><daughter_node, name="child_1", age="20"><chichild_node>...</chichild_node></daughter_node>...<daughter_node>2021</daughter_node><son_node>...<son_node>...<son_node>...<son_node> </data>-
對于創建的Element對象,可以通過直接對其結點域(fields)賦值,達到修改的目的,例如:
daughter_node.text = 2022 # 原值為2021,經賦值后,當前值為2022 -
對于一個結點的屬性,可以使用Element.set()來新增或修改結點屬性:
data[0].set("age", "21") data[0].set("where", "home")data[0]代表data的第一個子結點daughter_node,有屬性name和age,沒有屬性where,因此上面的代碼第一條修改了age屬性,將20修改為21;新增了屬性where,其屬性值為home。此時該節點有三個屬性。
-
假定當前for循環遍歷所有son_node,刪掉滿足判斷條件(此處為True)的son_node,那么:
for one_son_node in data.findall("son_node"):if True:data.remove(one_son_node)注意,此處不能用data.iter()替代data.findall(),因為后者只是查找,返回的是查找的結果;而前者是迭代,如果在迭代的過程中修改,會導致迭代發生錯誤
保存修改后的xml樹
在經過上面的一系列修改后,此時的xml文件里的內容并沒有修改,因此需要將修改后的樹重寫進文件中:
ElementTree.write(r"path\to\save\your\xml\file.xml")結語
寫到到這里,自己完全明白了怎么建立樹形結構、結點及兩者的相關操作,能準確區分ElementTree和Element到底是什么。本文只講了一些基礎的操作,看完后完全可以自行進官網查看兩者的文檔,發覺更多其他更操作:
- ElementTree
- Element
總結
以上是生活随笔為你收集整理的「Python」 ElementTree模块解析xml文件,建议小白阅读全文的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 坦克的携弹量有限,会面临淘汰吗
- 下一篇: 「Python-Bug」matplotl