网络爬虫--11.XPath和lxml
文章目錄
- 一. XML
- 1. XML 和 HTML 的區(qū)別
- 2. XML文檔示例
- 3. HTML DOM 模型示例
- 4. XML的節(jié)點(diǎn)關(guān)系
- 二. 什么是XPath?
- 1. 選取節(jié)點(diǎn)
- 2. 謂語(yǔ)(Predicates)
- 3. 選取未知節(jié)點(diǎn)
- 4. 選取若干路徑
- 5. XPath的運(yùn)算符
- 三. lxml庫(kù)
- 1. 初步使用
- 2. 文件讀取
- 四. XPath實(shí)例測(cè)試
- 1. 獲取所有的 < li> 標(biāo)簽
- 2. 繼續(xù)獲取< li> 標(biāo)簽的所有 class屬性
- 3. 繼續(xù)獲取< li>標(biāo)簽下href 為 link1.html 的 < a> 標(biāo)簽
- 4. 獲取< li> 標(biāo)簽下的所有 < span> 標(biāo)簽
- 5. 獲取 < li> 標(biāo)簽下的< a>標(biāo)簽里的所有 class
- 6. 獲取最后一個(gè) < li> 的 < a> 的 href
- 7. 獲取倒數(shù)第二個(gè)元素的內(nèi)容
- 8. 獲取 class 值為 bold 的標(biāo)簽名
一. XML
有人說(shuō),我正則用的不好,處理HTML文檔很累,有沒(méi)有其他的方法?
有!那就是XPath,我們可以先將 HTML文件 轉(zhuǎn)換成 XML文檔,然后用 XPath 查找 HTML 節(jié)點(diǎn)或元素。
W3School官方文檔:http://www.w3school.com.cn/xml/index.asp
1. XML 和 HTML 的區(qū)別
2. XML文檔示例
<?xml version="1.0" encoding="utf-8"?><bookstore><book category="cooking"><title lang="en">Everyday Italian</title> <author>Giada De Laurentiis</author> <year>2005</year> <price>30.00</price></book> <book category="children"><title lang="en">Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price></book> <book category="web"><title lang="en">XQuery Kick Start</title> <author>James McGovern</author> <author>Per Bothner</author> <author>Kurt Cagle</author> <author>James Linn</author> <author>Vaidyanathan Nagarajan</author> <year>2003</year> <price>49.99</price></book><book category="web" cover="paperback"><title lang="en">Learning XML</title> <author>Erik T. Ray</author> <year>2003</year> <price>39.95</price></book></bookstore>3. HTML DOM 模型示例
HTML DOM 定義了訪問(wèn)和操作 HTML 文檔的標(biāo)準(zhǔn)方法,以樹(shù)結(jié)構(gòu)方式表達(dá) HTML 文檔。
4. XML的節(jié)點(diǎn)關(guān)系
下面一個(gè)簡(jiǎn)單的XML例子中:
<?xml version="1.0" encoding="utf-8"?><bookstore><book><title>Harry Potter</title><author>J K. Rowling</author><year>2005</year><price>29.99</price></book></bookstore>二. 什么是XPath?
XPath (XML Path Language) 是一門(mén)在 XML 文檔中查找信息的語(yǔ)言,可用來(lái)在 XML 文檔中對(duì)元素和屬性進(jìn)行遍歷。
W3School官方文檔:http://www.w3school.com.cn/xpath/index.asp
XPath 開(kāi)發(fā)工具
開(kāi)源的XPath表達(dá)式編輯工具:XMLQuire(XML格式文件可用)
Chrome插件 XPath Helper
Firefox插件 XPath Checker
1. 選取節(jié)點(diǎn)
XPath 使用路徑表達(dá)式來(lái)選取 XML 文檔中的節(jié)點(diǎn)或者節(jié)點(diǎn)集。這些路徑表達(dá)式和我們?cè)诔R?guī)的電腦文件系統(tǒng)中看到的表達(dá)式非常相似。
下面列出了最常用的路徑表達(dá)式:
在下面的表格中,我們已列出了一些路徑表達(dá)式以及表達(dá)式的結(jié)果:
2. 謂語(yǔ)(Predicates)
謂語(yǔ)用來(lái)查找某個(gè)特定的節(jié)點(diǎn)或者包含某個(gè)指定的值的節(jié)點(diǎn),被嵌在方括號(hào)中。
在下面的表格中,我們列出了帶有謂語(yǔ)的一些路徑表達(dá)式,以及表達(dá)式的結(jié)果:
3. 選取未知節(jié)點(diǎn)
XPath 通配符可用來(lái)選取未知的 XML 元素。
在下面的表格中,我們列出了一些路徑表達(dá)式,以及這些表達(dá)式的結(jié)果:
4. 選取若干路徑
通過(guò)在路徑表達(dá)式中使用“|”運(yùn)算符,您可以選取若干個(gè)路徑。
在下面的表格中,我們列出了一些路徑表達(dá)式,以及這些表達(dá)式的結(jié)果:
5. XPath的運(yùn)算符
下面列出了可用在 XPath 表達(dá)式中的運(yùn)算符:
這些就是XPath的語(yǔ)法內(nèi)容,在運(yùn)用到Python抓取時(shí)要先轉(zhuǎn)換為xml。
三. lxml庫(kù)
lxml 是 一個(gè)HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 數(shù)據(jù)。
lxml和正則一樣,也是用 C 實(shí)現(xiàn)的,是一款高性能的 Python HTML/XML 解析器,我們可以利用之前學(xué)習(xí)的XPath語(yǔ)法,來(lái)快速的定位特定元素以及節(jié)點(diǎn)信息。
lxml python 官方文檔:http://lxml.de/index.html
需要安裝C語(yǔ)言庫(kù),可使用 pip 安裝:pip install lxml (或通過(guò)wheel方式安裝)
1. 初步使用
我們利用它來(lái)解析 HTML 代碼,簡(jiǎn)單示例:
from lxml import etreetext = ''' <div><ul><li class="item-0"><a href="link1.html">first item</a></li><li class="item-1"><a href="link2.html">second item</a></li><li class="item-inactive"><a href="link3.html">third item</a></li><li class="item-1"><a href="link4.html">fourth item</a></li><li class="item-0"><a href="link5.html">fifth item</a> # 注意,此處缺少一個(gè) </li> 閉合標(biāo)簽</ul></div> '''#利用etree.HTML,將字符串解析為HTML文檔 print('------1------') print(text) print (type(text))html = etree.HTML(text) print('-----2-------') print(html) print (type(html))# 按字符串序列化HTML文檔 result = etree.tostring(html) print('-----3-------') print(result) print (type(result))輸出結(jié)果:
------1------<div><ul><li class="item-0"><a href="link1.html">first item</a></li><li class="item-1"><a href="link2.html">second item</a></li><li class="item-inactive"><a href="link3.html">third item</a></li><li class="item-1"><a href="link4.html">fourth item</a></li><li class="item-0"><a href="link5.html">fifth item</a> # 注意,此處缺少一個(gè) </li> 閉合標(biāo)簽</ul></div><class 'str'> -----2------- <Element html at 0x1e839453708> <class 'lxml.etree._Element'> -----3------- b'<html><body><div>\n <ul>\n <li class="item-0"><a href="link1.html">first item</a></li>\n <li class="item-1"><a href="link2.html">second item</a></li>\n <li class="item-inactive"><a href="link3.html">third item</a></li>\n <li class="item-1"><a href="link4.html">fourth item</a></li>\n <li class="item-0"><a href="link5.html">fifth item</a> # 注意,此处缺少一个 </li> 闭合标签\n </ul>\n </div>\n</body></html>' <class 'bytes'>lxml 可以自動(dòng)修正 html 代碼,例子里不僅會(huì)補(bǔ)全 li 標(biāo)簽,還添加了 body,html 標(biāo)簽。
2. 文件讀取
除了直接讀取字符串,lxml還支持從文件里讀取內(nèi)容。我們新建一個(gè)hello.html文件:
<!-- hello.html --><div><ul><li class="item-0"><a href="link1.html">first item</a></li><li class="item-1"><a href="link2.html">second item</a></li><li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li><li class="item-1"><a href="link4.html">fourth item</a></li><li class="item-0"><a href="link5.html">fifth item</a></li></ul></div>再利用 etree.parse() 方法來(lái)讀取文件。
from lxml import etree# 讀取外部文件 hello.html html1 = etree.parse('./hello.html') result1 = etree.tostring(html1, pretty_print=True)print('--------------------') print(result1)print('-------如果是文件讀取,需要使用prase(),而不是用HTML,否則會(huì)出現(xiàn)下邊結(jié)果:---------')html2 = etree.HTML('./hello.html') result2 = etree.tostring(html2, pretty_print=True) print(result2)運(yùn)行結(jié)果:
-------------------- b'<div>\n <ul>\n <li class="item-0"><a href="link1.html">first item</a></li>\n <li class="item-1"><a href="link2.html">second item</a></li>\n <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>\n <li class="item-1"><a href="link4.html">fourth item</a></li>\n <li class="item-0"><a href="link5.html">fifth item</a></li>\n </ul>\n </div>\n' -------如果是文件讀取,需要使用prase(),而不是用HTML,否則會(huì)出現(xiàn)下邊結(jié)果:--------- b'<html>\n <body>\n <p>./hello.html</p>\n </body>\n</html>\n'四. XPath實(shí)例測(cè)試
1. 獲取所有的 < li> 標(biāo)簽
from lxml import etreehtml = etree.parse('hello.html') print (type(html)) # 顯示etree.parse() 返回類(lèi)型result = html.xpath('//li')print (result) # 打印<li>標(biāo)簽的元素集合 print (len(result)) print (type(result)) print (type(result[0]))輸出結(jié)果:
<class 'lxml.etree._ElementTree'> [<Element li at 0x21658f02608>, <Element li at 0x21658f02708>, <Element li at 0x21658f02748>, <Element li at 0x21658f02788>, <Element li at 0x21658f027c8>] 5 <class 'list'> <class 'lxml.etree._Element'>2. 繼續(xù)獲取< li> 標(biāo)簽的所有 class屬性
from lxml import etreehtml = etree.parse('hello.html') result = html.xpath('//li/@class')print(result) print(type(result))運(yùn)行結(jié)果:
['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0'] <class 'list'>3. 繼續(xù)獲取< li>標(biāo)簽下href 為 link1.html 的 < a> 標(biāo)簽
from lxml import etreehtml = etree.parse('hello.html') result = html.xpath('//li/a[@href="link1.html"]')print result輸出結(jié)果:
[<Element a at 0x23b68132748>] <class 'list'>4. 獲取< li> 標(biāo)簽下的所有 < span> 標(biāo)簽
from lxml import etreehtml = etree.parse('hello.html')#result = html.xpath('//li/span') #注意這么寫(xiě)是不對(duì)的: #因?yàn)?/ 是用來(lái)獲取子元素的,而 <span> 并不是 <li> 的子元素,所以,要用雙斜杠result = html.xpath('//li//span')print(result) print(type(result))輸出結(jié)果:
[<Element span at 0x28d12587508>] <class 'list'>5. 獲取 < li> 標(biāo)簽下的< a>標(biāo)簽里的所有 class
from lxml import etreehtml = etree.parse('hello.html') result = html.xpath('//li/a//@class')print(result) print(type(result))輸出結(jié)果:
['bold'] <class 'list'>6. 獲取最后一個(gè) < li> 的 < a> 的 href
from lxml import etreehtml = etree.parse('hello.html') result = html.xpath('//li/a//@class')print(result) print(type(result))輸出結(jié)果:
['link5.html'] <class 'list'>7. 獲取倒數(shù)第二個(gè)元素的內(nèi)容
from lxml import etreehtml = etree.parse('hello.html') result = html.xpath('//li[last()-1]/a')# text 方法可以獲取元素內(nèi)容 print (result[0].text) print (type(result[0].text))輸出結(jié)果:
fourth item <class 'str'>8. 獲取 class 值為 bold 的標(biāo)簽名
from lxml import etreehtml = etree.parse('hello.html')result = html.xpath('//*[@class="bold"]')# tag方法可以獲取標(biāo)簽名 print (result[0].tag) print (type(result[0].tag))輸出結(jié)果:
span <class 'str'>總結(jié)
以上是生活随笔為你收集整理的网络爬虫--11.XPath和lxml的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 网络爬虫--3.str和bytes的区别
- 下一篇: java 重载 equals_实现Stu