當前位置：首頁 > 编程语言 > python >内容正文

python

「Python」 ElementTree模块解析xml文件，建议小白阅读全文

發布時間：2024/9/27 python 64 豆豆

生活随笔收集整理的這篇文章主要介紹了「Python」 ElementTree模块解析xml文件，建议小白阅读全文小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

背景

Python有三種方法解析xml：SAX，DOM，Elementree。本文記錄ElementTree方法解析xml。
目前自己用的是Python3.6，但在該版本中并沒有xml的縮進函數ET.indent，不過就我所知3.9版本是有的，所以當前3.6寫出來的xml是無法調用函數來美化xml排版，文中的xml排版是手動擋 :）。當然，也可以寫個函數來自動優化。

正文

xml是一種固有的分層數據格式，最好的描述方式就是使用樹形結構。在ElementTree模塊中，使用ElementTree對象來表示一棵樹，Element對象來表示樹中的一個單一結點。讀取、寫入一個xml文件一般都是在ElementTree層面上操作，而對xml元素（結點）及其子元素（子結點）的操作是在Element層面上進行。

說明：下面的內容有時候使用明確的node名稱來代替Element進行操作，有時候使用Element泛指一個結點。ElementTree和Element是一個類，創建一棵樹tree或者一個結點node相當于類的實例化。

解析xml文件

import xml.etree.ElementTree as ET # 導入ElementTree模塊 tree = ET.parse(xml_file_path) # 解析xml文件，得到樹形結構 root = tree.getroot() # 獲取根節點

結點基礎：node.tag，node.attrib，node.get()，node.text

每個結點都有標簽（tag）和屬性（attrib），標簽名一般不為空，屬性可為空，比如：

<data, attrib=[]><daughter_node, name="child_1", age="20"><chichild_node>...</chichild_node></daughter_node>...<daughter_node>2021</daughter_node><son_node>...<son_node>...<son_node>...<son_node> </data>

上面為一個根結點及其子結點的例子，根結點的標簽名為data，沒有屬性（attrib為空：[]）。注意區分結點的屬性和結點的子結點，屬性包含在結點的括號<>中，而子結點是夾在一對標簽內。獲取一個結點的標簽和屬性（此處結點為根節點）：

root.tag # 返回結點的標簽名data root.atrrib # 返回結點的屬性，此時根節點的屬性為[]

而對于非空屬性的結點，其屬性可以單個或者多個，比如下面這個結點child node，它帶有兩個屬性name和age：

<child_node, name="child_1" age="20">... </child_node>

可以使用如下代碼來訪問child_node屬性：

child_node.attrib # 返回一個字典，字典包含每個屬性名和屬性內容 child_node.get("name") # 返回name屬性的屬性內容:child_1

假定C結點（node結點）沒有子結點，但夾有文本信息：

則要獲取node結點的文本信息，有：

node.text # 返回“2021”

結點拔高：遍歷，索引，遍歷指定結點Element.iter()，查找指定結點Element.findall()

有子結點的父結點是可迭代循環的，可以用for循環遍歷父結點的所有子結點
for child in root:print((child.tag, child.attrib))
通過索引的方式獲取結點
node = root[0][1]
此處表示返回root結點（A）的第0個子結點（B）的第1個子結點（C），ABC三個的關系是，A是B的父節點，A是C的爺爺節點，B是C的父節點。
指定遍歷某一類結點

假定要遍歷上面例子中data結點下的所有daughter_node，則可以使用Element.iter()來指定遍歷結點：
for daughter in data.iter("daughter_node"):print(daughter.tag)print(daughter.attrib)
ps：可以用data.findall()替換data.iter()，進行同樣的迭代，但區別在哪里自己探索吧。

創建xml并保存

創建結點：ElementTree.Element()
創建樹形結構：ElementTree.ElementTree()
保存為xml文件：ElementTree.write()
添加子結點：ElementTree.append()

要創建xml文件，那首先就要創建一個樹形結構，對于樹形結構，肯定是在ElementTree這個層次上創建，相當于創建了一個樹架子，而Element是創建結點，創建樹架子和結點后，你需要將Element結點掛到樹架子ElementTree上，因此：

xml_2_path = r"path\to\save\your\xml\file.xml" root = ET.Element("data", {"year":"2021", "age":"21"}) # 創建根節點 new_tree = ET.ElementTree(element=root) # 創建樹形結構，再將根節點傳遞到樹中 child = ET.Element("child_1") # 創建一個結點 child.text = "Anya" # 創界該結點的text內容 root.append(child) # 將該結點連接到根結點root，此時該結點便成了root的子結點 new_tree.write(xml_2_path)

修改xml

修改文本：node.text = 2022
修改屬性：node.set()
移除結點：Element.remove()
查找特定結點：Element.findall()

假定目前已有xml文件如下：

對于創建的Element對象，可以通過直接對其結點域（fields）賦值，達到修改的目的，例如：
daughter_node.text = 2022 # 原值為2021，經賦值后，當前值為2022
對于一個結點的屬性，可以使用Element.set()來新增或修改結點屬性：
data[0].set("age", "21") data[0].set("where", "home")
data[0]代表data的第一個子結點daughter_node，有屬性name和age，沒有屬性where，因此上面的代碼第一條修改了age屬性，將20修改為21；新增了屬性where，其屬性值為home。此時該節點有三個屬性。
假定當前for循環遍歷所有son_node，刪掉滿足判斷條件（此處為True）的son_node，那么：
for one_son_node in data.findall("son_node"):if True:data.remove(one_son_node)
注意，此處不能用data.iter()替代data.findall()，因為后者只是查找，返回的是查找的結果；而前者是迭代，如果在迭代的過程中修改，會導致迭代發生錯誤

保存修改后的xml樹

在經過上面的一系列修改后，此時的xml文件里的內容并沒有修改，因此需要將修改后的樹重寫進文件中：

ElementTree.write(r"path\to\save\your\xml\file.xml")

結語

寫到到這里，自己完全明白了怎么建立樹形結構、結點及兩者的相關操作，能準確區分ElementTree和Element到底是什么。本文只講了一些基礎的操作，看完后完全可以自行進官網查看兩者的文檔，發覺更多其他更操作：

ElementTree
Element

總結

以上是生活随笔為你收集整理的「Python」 ElementTree模块解析xml文件，建议小白阅读全文的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：坦克的携弹量有限，会面临淘汰吗
下一篇：「Python-Bug」matplotl