當(dāng)前位置：首頁(yè) >

网络爬虫--11.XPath和lxml

發(fā)布時(shí)間：2023/12/20 31 豆豆

生活随笔收集整理的這篇文章主要介紹了网络爬虫--11.XPath和lxml 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

一. XML
- 1. XML 和 HTML 的區(qū)別
- 2. XML文檔示例
- 3. HTML DOM 模型示例
- 4. XML的節(jié)點(diǎn)關(guān)系
二. 什么是XPath？
- 1. 選取節(jié)點(diǎn)
- 2. 謂語(yǔ)（Predicates）
- 3. 選取未知節(jié)點(diǎn)
- 4. 選取若干路徑
- 5. XPath的運(yùn)算符
三. lxml庫(kù)
- 1. 初步使用
- 2. 文件讀取
四. XPath實(shí)例測(cè)試
- 1. 獲取所有的 < li> 標(biāo)簽
- 2. 繼續(xù)獲取< li> 標(biāo)簽的所有 class屬性
- 3. 繼續(xù)獲取< li>標(biāo)簽下href 為 link1.html 的 < a> 標(biāo)簽
- 4. 獲取< li> 標(biāo)簽下的所有 < span> 標(biāo)簽
- 5. 獲取 < li> 標(biāo)簽下的< a>標(biāo)簽里的所有 class
- 6. 獲取最后一個(gè) < li> 的 < a> 的 href
- 7. 獲取倒數(shù)第二個(gè)元素的內(nèi)容
- 8. 獲取 class 值為 bold 的標(biāo)簽名

一. XML

有人說(shuō)，我正則用的不好，處理HTML文檔很累，有沒(méi)有其他的方法？

有！那就是XPath，我們可以先將 HTML文件轉(zhuǎn)換成 XML文檔，然后用 XPath 查找 HTML 節(jié)點(diǎn)或元素。

XML 指可擴(kuò)展標(biāo)記語(yǔ)言（EXtensible Markup Language）

XML 是一種標(biāo)記語(yǔ)言，很類(lèi)似 HTML

XML 的設(shè)計(jì)宗旨是傳輸數(shù)據(jù)，而非顯示數(shù)據(jù)

XML 的標(biāo)簽需要我們自行定義。

XML 被設(shè)計(jì)為具有自我描述性。

XML 是 W3C 的推薦標(biāo)準(zhǔn)

W3School官方文檔：http://www.w3school.com.cn/xml/index.asp

1. XML 和 HTML 的區(qū)別

2. XML文檔示例

<?xml version="1.0" encoding="utf-8"?><bookstore><book category="cooking"><title lang="en">Everyday Italian</title> <author>Giada De Laurentiis</author> <year>2005</year> <price>30.00</price></book> <book category="children"><title lang="en">Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price></book> <book category="web"><title lang="en">XQuery Kick Start</title> <author>James McGovern</author> <author>Per Bothner</author> <author>Kurt Cagle</author> <author>James Linn</author> <author>Vaidyanathan Nagarajan</author> <year>2003</year> <price>49.99</price></book><book category="web" cover="paperback"><title lang="en">Learning XML</title> <author>Erik T. Ray</author> <year>2003</year> <price>39.95</price></book></bookstore>

3. HTML DOM 模型示例

HTML DOM 定義了訪問(wèn)和操作 HTML 文檔的標(biāo)準(zhǔn)方法，以樹(shù)結(jié)構(gòu)方式表達(dá) HTML 文檔。

4. XML的節(jié)點(diǎn)關(guān)系

下面一個(gè)簡(jiǎn)單的XML例子中：

<?xml version="1.0" encoding="utf-8"?><bookstore><book><title>Harry Potter</title><author>J K. Rowling</author><year>2005</year><price>29.99</price></book></bookstore>

父（Parent）每個(gè)元素以及屬性都有一個(gè)父。book 元素是 title、author、year 以及 price 元素的父。

子（Children）元素節(jié)點(diǎn)可有零個(gè)、一個(gè)或多個(gè)子。title、author、year 以及 price 元素都是 book 元素的子。

同胞（Sibling）擁有相同的父的節(jié)點(diǎn)。title、author、year 以及 price 元素都是同胞。

先輩（Ancestor）某節(jié)點(diǎn)的父、父的父，等等。title 元素的先輩是 book 元素和 bookstore 元素。

后代（Descendant）某個(gè)節(jié)點(diǎn)的子，子的子，等等。bookstore 的后代是 book、title、author、year 以及 price 元素。

二. 什么是XPath？

XPath (XML Path Language) 是一門(mén)在 XML 文檔中查找信息的語(yǔ)言，可用來(lái)在 XML 文檔中對(duì)元素和屬性進(jìn)行遍歷。

W3School官方文檔：http://www.w3school.com.cn/xpath/index.asp

XPath 開(kāi)發(fā)工具
開(kāi)源的XPath表達(dá)式編輯工具:XMLQuire(XML格式文件可用)
Chrome插件 XPath Helper
Firefox插件 XPath Checker

1. 選取節(jié)點(diǎn)

XPath 使用路徑表達(dá)式來(lái)選取 XML 文檔中的節(jié)點(diǎn)或者節(jié)點(diǎn)集。這些路徑表達(dá)式和我們?cè)诔Ｒ?guī)的電腦文件系統(tǒng)中看到的表達(dá)式非常相似。

下面列出了最常用的路徑表達(dá)式：

在下面的表格中，我們已列出了一些路徑表達(dá)式以及表達(dá)式的結(jié)果：

2. 謂語(yǔ)（Predicates）

謂語(yǔ)用來(lái)查找某個(gè)特定的節(jié)點(diǎn)或者包含某個(gè)指定的值的節(jié)點(diǎn)，被嵌在方括號(hào)中。

在下面的表格中，我們列出了帶有謂語(yǔ)的一些路徑表達(dá)式，以及表達(dá)式的結(jié)果：

3. 選取未知節(jié)點(diǎn)

XPath 通配符可用來(lái)選取未知的 XML 元素。

在下面的表格中，我們列出了一些路徑表達(dá)式，以及這些表達(dá)式的結(jié)果：

4. 選取若干路徑

通過(guò)在路徑表達(dá)式中使用“|”運(yùn)算符，您可以選取若干個(gè)路徑。

在下面的表格中，我們列出了一些路徑表達(dá)式，以及這些表達(dá)式的結(jié)果：

5. XPath的運(yùn)算符

下面列出了可用在 XPath 表達(dá)式中的運(yùn)算符：

這些就是XPath的語(yǔ)法內(nèi)容，在運(yùn)用到Python抓取時(shí)要先轉(zhuǎn)換為xml。

三. lxml庫(kù)

lxml 是一個(gè)HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 數(shù)據(jù)。

lxml和正則一樣，也是用 C 實(shí)現(xiàn)的，是一款高性能的 Python HTML/XML 解析器，我們可以利用之前學(xué)習(xí)的XPath語(yǔ)法，來(lái)快速的定位特定元素以及節(jié)點(diǎn)信息。

lxml python 官方文檔：http://lxml.de/index.html

需要安裝C語(yǔ)言庫(kù)，可使用 pip 安裝：pip install lxml （或通過(guò)wheel方式安裝）

1. 初步使用

我們利用它來(lái)解析 HTML 代碼，簡(jiǎn)單示例：

from lxml import etreetext = ''' <div><ul><li class="item-0"><a href="link1.html">first item</a></li><li class="item-1"><a href="link2.html">second item</a></li><li class="item-inactive"><a href="link3.html">third item</a></li><li class="item-1"><a href="link4.html">fourth item</a></li><li class="item-0"><a href="link5.html">fifth item</a> # 注意，此處缺少一個(gè) </li> 閉合標(biāo)簽</ul></div> '''#利用etree.HTML，將字符串解析為HTML文檔 print('------1------') print(text) print (type(text))html = etree.HTML(text) print('-----2-------') print(html) print (type(html))# 按字符串序列化HTML文檔 result = etree.tostring(html) print('-----3-------') print(result) print (type(result))

輸出結(jié)果：

------1------<div><ul><li class="item-0"><a href="link1.html">first item</a></li><li class="item-1"><a href="link2.html">second item</a></li><li class="item-inactive"><a href="link3.html">third item</a></li><li class="item-1"><a href="link4.html">fourth item</a></li><li class="item-0"><a href="link5.html">fifth item</a> # 注意，此處缺少一個(gè) </li> 閉合標(biāo)簽</ul></div><class 'str'> -----2------- <Element html at 0x1e839453708> <class 'lxml.etree._Element'> -----3------- b'<html><body><div>\n <ul>\n <li class="item-0"><a href="link1.html">first item</a></li>\n <li class="item-1"><a href="link2.html">second item</a></li>\n <li class="item-inactive"><a href="link3.html">third item</a></li>\n <li class="item-1"><a href="link4.html">fourth item</a></li>\n <li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签\n </ul>\n </div>\n</body></html>' <class 'bytes'>

lxml 可以自動(dòng)修正 html 代碼，例子里不僅會(huì)補(bǔ)全 li 標(biāo)簽，還添加了 body，html 標(biāo)簽。

2. 文件讀取

除了直接讀取字符串，lxml還支持從文件里讀取內(nèi)容。我們新建一個(gè)hello.html文件：

<div><ul><li class="item-0"><a href="link1.html">first item</a></li><li class="item-1"><a href="link2.html">second item</a></li><li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li><li class="item-1"><a href="link4.html">fourth item</a></li><li class="item-0"><a href="link5.html">fifth item</a></li></ul></div>

再利用 etree.parse() 方法來(lái)讀取文件。

from lxml import etree# 讀取外部文件 hello.html html1 = etree.parse('./hello.html') result1 = etree.tostring(html1, pretty_print=True)print('--------------------') print(result1)print('-------如果是文件讀取，需要使用prase(),而不是用HTML,否則會(huì)出現(xiàn)下邊結(jié)果：---------')html2 = etree.HTML('./hello.html') result2 = etree.tostring(html2, pretty_print=True) print(result2)

運(yùn)行結(jié)果：

-------------------- b'<div>\n <ul>\n <li class="item-0"><a href="link1.html">first item</a></li>\n <li class="item-1"><a href="link2.html">second item</a></li>\n <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>\n <li class="item-1"><a href="link4.html">fourth item</a></li>\n <li class="item-0"><a href="link5.html">fifth item</a></li>\n </ul>\n </div>\n' -------如果是文件讀取，需要使用prase(),而不是用HTML,否則會(huì)出現(xiàn)下邊結(jié)果：--------- b'<html>\n <body>\n <p>./hello.html</p>\n </body>\n</html>\n'

四. XPath實(shí)例測(cè)試

1. 獲取所有的 < li> 標(biāo)簽

from lxml import etreehtml = etree.parse('hello.html') print (type(html)) # 顯示etree.parse() 返回類(lèi)型result = html.xpath('//li')print (result) # 打印<li>標(biāo)簽的元素集合 print (len(result)) print (type(result)) print (type(result[0]))

輸出結(jié)果：

2. 繼續(xù)獲取< li> 標(biāo)簽的所有 class屬性

from lxml import etreehtml = etree.parse('hello.html') result = html.xpath('//li/@class')print(result) print(type(result))

運(yùn)行結(jié)果：

['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0'] <class 'list'>

3. 繼續(xù)獲取< li>標(biāo)簽下href 為 link1.html 的 < a> 標(biāo)簽

from lxml import etreehtml = etree.parse('hello.html') result = html.xpath('//li/a[@href="link1.html"]')print result

輸出結(jié)果：

[<Element a at 0x23b68132748>] <class 'list'>

4. 獲取< li> 標(biāo)簽下的所有 < span> 標(biāo)簽

from lxml import etreehtml = etree.parse('hello.html')#result = html.xpath('//li/span') #注意這么寫(xiě)是不對(duì)的： #因?yàn)?/ 是用來(lái)獲取子元素的，而 <span> 并不是 <li> 的子元素，所以，要用雙斜杠result = html.xpath('//li//span')print(result) print(type(result))

輸出結(jié)果：

[<Element span at 0x28d12587508>] <class 'list'>

5. 獲取 < li> 標(biāo)簽下的< a>標(biāo)簽里的所有 class

from lxml import etreehtml = etree.parse('hello.html') result = html.xpath('//li/a//@class')print(result) print(type(result))

輸出結(jié)果：

['bold'] <class 'list'>

6. 獲取最后一個(gè) < li> 的 < a> 的 href

from lxml import etreehtml = etree.parse('hello.html') result = html.xpath('//li/a//@class')print(result) print(type(result))

輸出結(jié)果：

['link5.html'] <class 'list'>

7. 獲取倒數(shù)第二個(gè)元素的內(nèi)容

from lxml import etreehtml = etree.parse('hello.html') result = html.xpath('//li[last()-1]/a')# text 方法可以獲取元素內(nèi)容 print (result[0].text) print (type(result[0].text))

輸出結(jié)果：

fourth item <class 'str'>

8. 獲取 class 值為 bold 的標(biāo)簽名

from lxml import etreehtml = etree.parse('hello.html')result = html.xpath('//*[@class="bold"]')# tag方法可以獲取標(biāo)簽名 print (result[0].tag) print (type(result[0].tag))

輸出結(jié)果：

span <class 'str'>

總結(jié)

以上是生活随笔為你收集整理的网络爬虫--11.XPath和lxml的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：网络爬虫--3.str和bytes的区别
下一篇： java 重载 equals_实现Stu