日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

网络爬虫--11.XPath和lxml

發(fā)布時(shí)間:2023/12/20 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 网络爬虫--11.XPath和lxml 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

  • 一. XML
    • 1. XML 和 HTML 的區(qū)別
    • 2. XML文檔示例
    • 3. HTML DOM 模型示例
    • 4. XML的節(jié)點(diǎn)關(guān)系
  • 二. 什么是XPath?
    • 1. 選取節(jié)點(diǎn)
    • 2. 謂語(yǔ)(Predicates)
    • 3. 選取未知節(jié)點(diǎn)
    • 4. 選取若干路徑
    • 5. XPath的運(yùn)算符
  • 三. lxml庫(kù)
    • 1. 初步使用
    • 2. 文件讀取
  • 四. XPath實(shí)例測(cè)試
    • 1. 獲取所有的 < li> 標(biāo)簽
    • 2. 繼續(xù)獲取< li> 標(biāo)簽的所有 class屬性
    • 3. 繼續(xù)獲取< li>標(biāo)簽下href 為 link1.html 的 < a> 標(biāo)簽
    • 4. 獲取< li> 標(biāo)簽下的所有 < span> 標(biāo)簽
    • 5. 獲取 < li> 標(biāo)簽下的< a>標(biāo)簽里的所有 class
    • 6. 獲取最后一個(gè) < li> 的 < a> 的 href
    • 7. 獲取倒數(shù)第二個(gè)元素的內(nèi)容
    • 8. 獲取 class 值為 bold 的標(biāo)簽名

一. XML

有人說(shuō),我正則用的不好,處理HTML文檔很累,有沒(méi)有其他的方法?

有!那就是XPath,我們可以先將 HTML文件 轉(zhuǎn)換成 XML文檔,然后用 XPath 查找 HTML 節(jié)點(diǎn)或元素。

  • XML 指可擴(kuò)展標(biāo)記語(yǔ)言(EXtensible Markup Language)
  • XML 是一種標(biāo)記語(yǔ)言,很類(lèi)似 HTML
  • XML 的設(shè)計(jì)宗旨是傳輸數(shù)據(jù),而非顯示數(shù)據(jù)
  • XML 的標(biāo)簽需要我們自行定義。
  • XML 被設(shè)計(jì)為具有自我描述性。
  • XML 是 W3C 的推薦標(biāo)準(zhǔn)
  • W3School官方文檔:http://www.w3school.com.cn/xml/index.asp

    1. XML 和 HTML 的區(qū)別

    2. XML文檔示例

    <?xml version="1.0" encoding="utf-8"?><bookstore><book category="cooking"><title lang="en">Everyday Italian</title> <author>Giada De Laurentiis</author> <year>2005</year> <price>30.00</price></book> <book category="children"><title lang="en">Harry Potter</title> <author>J K. Rowling</author> <year>2005</year> <price>29.99</price></book> <book category="web"><title lang="en">XQuery Kick Start</title> <author>James McGovern</author> <author>Per Bothner</author> <author>Kurt Cagle</author> <author>James Linn</author> <author>Vaidyanathan Nagarajan</author> <year>2003</year> <price>49.99</price></book><book category="web" cover="paperback"><title lang="en">Learning XML</title> <author>Erik T. Ray</author> <year>2003</year> <price>39.95</price></book></bookstore>

    3. HTML DOM 模型示例

    HTML DOM 定義了訪問(wèn)和操作 HTML 文檔的標(biāo)準(zhǔn)方法,以樹(shù)結(jié)構(gòu)方式表達(dá) HTML 文檔。

    4. XML的節(jié)點(diǎn)關(guān)系

    下面一個(gè)簡(jiǎn)單的XML例子中:

    <?xml version="1.0" encoding="utf-8"?><bookstore><book><title>Harry Potter</title><author>J K. Rowling</author><year>2005</year><price>29.99</price></book></bookstore>
  • 父(Parent) 每個(gè)元素以及屬性都有一個(gè)父。book 元素是 title、author、year 以及 price 元素的父。
  • 子(Children)元素節(jié)點(diǎn)可有零個(gè)、一個(gè)或多個(gè)子。title、author、year 以及 price 元素都是 book 元素的子。
  • 同胞(Sibling)擁有相同的父的節(jié)點(diǎn)。title、author、year 以及 price 元素都是同胞。
  • 先輩(Ancestor)某節(jié)點(diǎn)的父、父的父,等等。title 元素的先輩是 book 元素和 bookstore 元素。
  • 后代(Descendant)某個(gè)節(jié)點(diǎn)的子,子的子,等等。bookstore 的后代是 book、title、author、year 以及 price 元素。
  • 二. 什么是XPath?

    XPath (XML Path Language) 是一門(mén)在 XML 文檔中查找信息的語(yǔ)言,可用來(lái)在 XML 文檔中對(duì)元素和屬性進(jìn)行遍歷。

    W3School官方文檔:http://www.w3school.com.cn/xpath/index.asp

    XPath 開(kāi)發(fā)工具
    開(kāi)源的XPath表達(dá)式編輯工具:XMLQuire(XML格式文件可用)
    Chrome插件 XPath Helper
    Firefox插件 XPath Checker

    1. 選取節(jié)點(diǎn)

    XPath 使用路徑表達(dá)式來(lái)選取 XML 文檔中的節(jié)點(diǎn)或者節(jié)點(diǎn)集。這些路徑表達(dá)式和我們?cè)诔R?guī)的電腦文件系統(tǒng)中看到的表達(dá)式非常相似。

    下面列出了最常用的路徑表達(dá)式:

    在下面的表格中,我們已列出了一些路徑表達(dá)式以及表達(dá)式的結(jié)果:

    2. 謂語(yǔ)(Predicates)

    謂語(yǔ)用來(lái)查找某個(gè)特定的節(jié)點(diǎn)或者包含某個(gè)指定的值的節(jié)點(diǎn),被嵌在方括號(hào)中。

    在下面的表格中,我們列出了帶有謂語(yǔ)的一些路徑表達(dá)式,以及表達(dá)式的結(jié)果:

    3. 選取未知節(jié)點(diǎn)

    XPath 通配符可用來(lái)選取未知的 XML 元素。


    在下面的表格中,我們列出了一些路徑表達(dá)式,以及這些表達(dá)式的結(jié)果:

    4. 選取若干路徑

    通過(guò)在路徑表達(dá)式中使用“|”運(yùn)算符,您可以選取若干個(gè)路徑。

    在下面的表格中,我們列出了一些路徑表達(dá)式,以及這些表達(dá)式的結(jié)果:

    5. XPath的運(yùn)算符

    下面列出了可用在 XPath 表達(dá)式中的運(yùn)算符:

    這些就是XPath的語(yǔ)法內(nèi)容,在運(yùn)用到Python抓取時(shí)要先轉(zhuǎn)換為xml。

    三. lxml庫(kù)

    lxml 是 一個(gè)HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 數(shù)據(jù)。

    lxml和正則一樣,也是用 C 實(shí)現(xiàn)的,是一款高性能的 Python HTML/XML 解析器,我們可以利用之前學(xué)習(xí)的XPath語(yǔ)法,來(lái)快速的定位特定元素以及節(jié)點(diǎn)信息。

    lxml python 官方文檔:http://lxml.de/index.html

    需要安裝C語(yǔ)言庫(kù),可使用 pip 安裝:pip install lxml (或通過(guò)wheel方式安裝)

    1. 初步使用

    我們利用它來(lái)解析 HTML 代碼,簡(jiǎn)單示例:

    from lxml import etreetext = ''' <div><ul><li class="item-0"><a href="link1.html">first item</a></li><li class="item-1"><a href="link2.html">second item</a></li><li class="item-inactive"><a href="link3.html">third item</a></li><li class="item-1"><a href="link4.html">fourth item</a></li><li class="item-0"><a href="link5.html">fifth item</a> # 注意,此處缺少一個(gè) </li> 閉合標(biāo)簽</ul></div> '''#利用etree.HTML,將字符串解析為HTML文檔 print('------1------') print(text) print (type(text))html = etree.HTML(text) print('-----2-------') print(html) print (type(html))# 按字符串序列化HTML文檔 result = etree.tostring(html) print('-----3-------') print(result) print (type(result))

    輸出結(jié)果:

    ------1------<div><ul><li class="item-0"><a href="link1.html">first item</a></li><li class="item-1"><a href="link2.html">second item</a></li><li class="item-inactive"><a href="link3.html">third item</a></li><li class="item-1"><a href="link4.html">fourth item</a></li><li class="item-0"><a href="link5.html">fifth item</a> # 注意,此處缺少一個(gè) </li> 閉合標(biāo)簽</ul></div><class 'str'> -----2------- <Element html at 0x1e839453708> <class 'lxml.etree._Element'> -----3------- b'<html><body><div>\n <ul>\n <li class="item-0"><a href="link1.html">first item</a></li>\n <li class="item-1"><a href="link2.html">second item</a></li>\n <li class="item-inactive"><a href="link3.html">third item</a></li>\n <li class="item-1"><a href="link4.html">fourth item</a></li>\n <li class="item-0"><a href="link5.html">fifth item</a> # &#27880;&#24847;&#65292;&#27492;&#22788;&#32570;&#23569;&#19968;&#20010; </li> &#38381;&#21512;&#26631;&#31614;\n </ul>\n </div>\n</body></html>' <class 'bytes'>

    lxml 可以自動(dòng)修正 html 代碼,例子里不僅會(huì)補(bǔ)全 li 標(biāo)簽,還添加了 body,html 標(biāo)簽。

    2. 文件讀取

    除了直接讀取字符串,lxml還支持從文件里讀取內(nèi)容。我們新建一個(gè)hello.html文件:

    <!-- hello.html --><div><ul><li class="item-0"><a href="link1.html">first item</a></li><li class="item-1"><a href="link2.html">second item</a></li><li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li><li class="item-1"><a href="link4.html">fourth item</a></li><li class="item-0"><a href="link5.html">fifth item</a></li></ul></div>

    再利用 etree.parse() 方法來(lái)讀取文件。

    from lxml import etree# 讀取外部文件 hello.html html1 = etree.parse('./hello.html') result1 = etree.tostring(html1, pretty_print=True)print('--------------------') print(result1)print('-------如果是文件讀取,需要使用prase(),而不是用HTML,否則會(huì)出現(xiàn)下邊結(jié)果:---------')html2 = etree.HTML('./hello.html') result2 = etree.tostring(html2, pretty_print=True) print(result2)

    運(yùn)行結(jié)果:

    -------------------- b'<div>\n <ul>\n <li class="item-0"><a href="link1.html">first item</a></li>\n <li class="item-1"><a href="link2.html">second item</a></li>\n <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>\n <li class="item-1"><a href="link4.html">fourth item</a></li>\n <li class="item-0"><a href="link5.html">fifth item</a></li>\n </ul>\n </div>\n' -------如果是文件讀取,需要使用prase(),而不是用HTML,否則會(huì)出現(xiàn)下邊結(jié)果:--------- b'<html>\n <body>\n <p>./hello.html</p>\n </body>\n</html>\n'

    四. XPath實(shí)例測(cè)試

    1. 獲取所有的 < li> 標(biāo)簽

    from lxml import etreehtml = etree.parse('hello.html') print (type(html)) # 顯示etree.parse() 返回類(lèi)型result = html.xpath('//li')print (result) # 打印<li>標(biāo)簽的元素集合 print (len(result)) print (type(result)) print (type(result[0]))

    輸出結(jié)果:

    <class 'lxml.etree._ElementTree'> [<Element li at 0x21658f02608>, <Element li at 0x21658f02708>, <Element li at 0x21658f02748>, <Element li at 0x21658f02788>, <Element li at 0x21658f027c8>] 5 <class 'list'> <class 'lxml.etree._Element'>

    2. 繼續(xù)獲取< li> 標(biāo)簽的所有 class屬性

    from lxml import etreehtml = etree.parse('hello.html') result = html.xpath('//li/@class')print(result) print(type(result))

    運(yùn)行結(jié)果:

    ['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0'] <class 'list'>

    3. 繼續(xù)獲取< li>標(biāo)簽下href 為 link1.html 的 < a> 標(biāo)簽

    from lxml import etreehtml = etree.parse('hello.html') result = html.xpath('//li/a[@href="link1.html"]')print result

    輸出結(jié)果:

    [<Element a at 0x23b68132748>] <class 'list'>

    4. 獲取< li> 標(biāo)簽下的所有 < span> 標(biāo)簽

    from lxml import etreehtml = etree.parse('hello.html')#result = html.xpath('//li/span') #注意這么寫(xiě)是不對(duì)的: #因?yàn)?/ 是用來(lái)獲取子元素的,而 <span> 并不是 <li> 的子元素,所以,要用雙斜杠result = html.xpath('//li//span')print(result) print(type(result))

    輸出結(jié)果:

    [<Element span at 0x28d12587508>] <class 'list'>

    5. 獲取 < li> 標(biāo)簽下的< a>標(biāo)簽里的所有 class

    from lxml import etreehtml = etree.parse('hello.html') result = html.xpath('//li/a//@class')print(result) print(type(result))

    輸出結(jié)果:

    ['bold'] <class 'list'>

    6. 獲取最后一個(gè) < li> 的 < a> 的 href

    from lxml import etreehtml = etree.parse('hello.html') result = html.xpath('//li/a//@class')print(result) print(type(result))

    輸出結(jié)果:

    ['link5.html'] <class 'list'>

    7. 獲取倒數(shù)第二個(gè)元素的內(nèi)容

    from lxml import etreehtml = etree.parse('hello.html') result = html.xpath('//li[last()-1]/a')# text 方法可以獲取元素內(nèi)容 print (result[0].text) print (type(result[0].text))

    輸出結(jié)果:

    fourth item <class 'str'>

    8. 獲取 class 值為 bold 的標(biāo)簽名

    from lxml import etreehtml = etree.parse('hello.html')result = html.xpath('//*[@class="bold"]')# tag方法可以獲取標(biāo)簽名 print (result[0].tag) print (type(result[0].tag))

    輸出結(jié)果:

    span <class 'str'>

    總結(jié)

    以上是生活随笔為你收集整理的网络爬虫--11.XPath和lxml的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。