日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

【学习笔记】Python - Lxml

發布時間:2025/3/20 python 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【学习笔记】Python - Lxml 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Lxml

Lxml庫是基于libxm12的XML解析庫的Python封裝,該模塊使用C語言編寫,解析的速度比Beautiful Soup更快。Lxml庫使用Xpath語法解析定位網頁數據。

Lxml庫的安裝

pip install lxml

Lxml庫的使用

1、修正HTML代碼

Lxml為XML解析庫,但也很好地支持了HTML文檔地解析功能,這為使用Lxml庫爬取網絡信息提供了支持條件。

首先需要導入Lxml庫中地etree庫,利用etree.HTML進行初始化,返回解析后的Element對象,這里可以看到,Lxml有一個非常實用的功能,就是自動修正了HTML代碼(比如標簽對漏掉的情況也會自動補齊)。

2、讀取HTML文件

將上面的HTML文件拷貝到Sublime中保存為HTML文件。

然后通過Lxml庫讀取HTML文件中的內容。

3、解析HTML文件

經過上面的步驟,便可以使用requests庫獲取HTML文件,然后用Lxml庫來解析HTML文件。

Xpath語法

Xpath是一門在XML文檔中查找信息的語言,對HTML文檔又很好的支持。

<user_databaser>

???????? <user>

???????? ???????? <name> Jack </name>

???????? ???????? <sex> Male </sex>

???????? ???????? <id> 10001 </id>

???????? ???????? <goal> 100 </goal>

???????? </user>

</user_databaser>

【基本概念】

  • 父節點:每個元素及屬性都有一個父節點,上例中的user元素就是name、sex、id和goal的父節點;
  • 子節點:元素節點可以有0個或者多個子節點,上例中的name、sex、id和goal元素就是user的子節點;
  • 同胞節點:擁有相同父節點,上例中的name、sex、id和goal元素就是同胞節點;
  • 先輩節點:某節點的父節點、父節點的父節點等,上例中的name元素的先輩節點是user和user_database;
  • 后代節點:某個節點的子節點、子節點的子節點等,上例中的user_database元素的后代節點是user、name、sex、id和goal;

Xpath使用路徑表達式在XML文檔中選取節點,節點是通過沿著路徑或者step來選取的。

表達式

描述

nodename

選取此節點的所有子節點

/

從根節點選取

//

從匹配選擇的當前節點選擇文檔中的節點,而不考慮它們的位置

.

選取當前節點

..

選取當前節點的父節點

@

選取屬性

根據上例舉例說明:

路徑表達式

結果

user_databaser

選取元素user_databaser的所有子節點

/user_databaser

選取根元素user_databaser

user_databaser/user

選取屬于user_databaser的子元素的所有user元素

//user

選取所有user子元素,不考慮他們在文檔中位置

user_databaser//user

選取屬于user_databaser元素的后代所有user元素,不管位置

//@attribute

選取名為attribute的所有屬性

Xpath中也可以使用通配符來選取位置的元素,常用的就是“*”通配符,它可以匹配任何元素節點。

Xpath語法中的謂語用來查找某個特定的節點或者包含某個指定值的節點,謂語被嵌在方括號中。

路徑表達式

結果

/user_databaser/user[1]

選取屬于user_databaser子元素的第一個user元素

//li{[@attribute]

選取所有擁有名為attribute屬性的li元素

//li{[@attribute=’red’]

選取所有li元素,且這些元素擁有值為red的attribute屬性

總結

以上是生活随笔為你收集整理的【学习笔记】Python - Lxml的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。