當前位置：首頁 > 编程语言 > python >内容正文

python

python的xpath用法介绍_python爬虫之xpath的基本使用详解

發布時間：2023/12/9 python 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 python的xpath用法介绍_python爬虫之xpath的基本使用详解小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本篇文章主要介紹了python爬蟲之xpath的基本使用詳解，現在分享給大家，也給大家做個參考。一起過來看看吧

一、簡介

XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進行遍歷。XPath 是 W3C XSLT 標準的主要元素，并且 XQuery 和 XPointer 都構建于 XPath 表達之上。

二、安裝

pip3 install lxml

三、使用

1、導入

from lxml import etree

2、基本使用

from lxml import etree

wb_data = """

first item
second item
third item
fourth item
fifth item

"""

html = etree.HTML(wb_data)

print(html)

result = etree.tostring(html)

print(result.decode("utf-8"))

從下面的結果來看，我們打印機html其實就是一個python對象，etree.tostring(html)則是不全里html的基本寫法，補全了缺胳膊少腿的標簽。

first item
second item
third item
fourth item
fifth item

3、獲取某個標簽的內容(基本使用)，注意，獲取a標簽的所有內容，a后面就不用再加正斜杠，否則報錯。

寫法一

html = etree.HTML(wb_data)

html_data = html.xpath('/html/body/p/ul/li/a')

print(html)

for i in html_data:

print(i.text)

first item

second item

third item

fourth item

fifth item

寫法二(直接在需要查找內容的標簽后面加一個/text()就行)

html = etree.HTML(wb_data)

html_data = html.xpath('/html/body/p/ul/li/a/text()')

print(html)

for i in html_data:

print(i)

first item

second item

third item

fourth item

fifth item

4、打開讀取html文件

#使用parse打開html的文件

html = etree.parse('test.html')

html_data = html.xpath('//*')
#打印是一個列表，需要遍歷

print(html_data)

for i in html_data:

print(i.text)

html = etree.parse('test.html')

html_data = etree.tostring(html,pretty_print=True)

res = html_data.decode('utf-8')

print(res)

打印：

first item
second item
third item
fourth item
fifth item

5、打印指定路徑下a標簽的屬性(可以通過遍歷拿到某個屬性的值，查找標簽的內容)

html = etree.HTML(wb_data)

html_data = html.xpath('/html/body/p/ul/li/a/@href')

for i in html_data:

print(i)

打印：link1.html

link2.html

link3.html

link4.html

link5.html

6、我們知道我們使用xpath拿到得都是一個個的ElementTree對象，所以如果需要查找內容的話，還需要遍歷拿到數據的列表。

查到絕對路徑下a標簽屬性等于link2.html的內容。

html = etree.HTML(wb_data)

html_data = html.xpath('/html/body/p/ul/li/a[@href="link2.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" ]/text()')

print(html_data)

for i in html_data:

print(i)

打印：['second item']

second item

7、上面我們找到全部都是絕對路徑(每一個都是從根開始查找)，下面我們查找相對路徑，例如，查找所有li標簽下的a標簽內容。

html = etree.HTML(wb_data)

html_data = html.xpath('//li/a/text()')

print(html_data)

for i in html_data:

print(i)

打印：['first item', 'second item', 'third item', 'fourth item', 'fifth item']

first item

second item

third item

fourth item

fifth item

8、上面我們使用絕對路徑，查找了所有a標簽的屬性等于href屬性值，利用的是/---絕對路徑，下面我們使用相對路徑，查找一下l相對路徑下li標簽下的a標簽下的href屬性的值，注意，a標簽后面需要雙//。

html = etree.HTML(wb_data)

html_data = html.xpath('//li/a//@href')

print(html_data)

for i in html_data:

print(i)

打印：['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']

link1.html

link2.html

link3.html

link4.html

link5.html

9、相對路徑下跟絕對路徑下查特定屬性的方法類似，也可以說相同。

html = etree.HTML(wb_data)

html_data = html.xpath('//li/a[@href="link2.html" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" rel="external nofollow" ]')

print(html_data)

for i in html_data:

print(i.text)

打印：[]

second item

10、查找最后一個li標簽里的a標簽的href屬性

html = etree.HTML(wb_data)

html_data = html.xpath('//li[last()]/a/text()')

print(html_data)

for i in html_data:

print(i)

打印：['fifth item']

fifth item

11、查找倒數第二個li標簽里的a標簽的href屬性

html = etree.HTML(wb_data)

html_data = html.xpath('//li[last()-1]/a/text()')

print(html_data)

for i in html_data:

print(i)

打印：['fourth item']

fourth item

12、如果在提取某個頁面的某個標簽的xpath路徑的話，可以如下圖：

//*[@id="kw"]

解釋：使用相對路徑查找所有的標簽，屬性id等于kw的標簽。

常用

#!/usr/bin/env python

# -*- coding:utf-8 -*-

from scrapy.selector import Selector, HtmlXPathSelector

from scrapy.http import HtmlResponse

html = """

first item
first item
second itemvv

second item

"""

response = HtmlResponse(url='http://example.com', body=html,encoding='utf-8')

# hxs = HtmlXPathSelector(response)

# print(hxs)

# hxs = Selector(response=response).xpath('//a')

# print(hxs)

# hxs = Selector(response=response).xpath('//a[2]')

# print(hxs)

# hxs = Selector(response=response).xpath('//a[@id]')

# print(hxs)

# hxs = Selector(response=response).xpath('//a[@id="i1"]')

# print(hxs)

# hxs = Selector(response=response).xpath('//a[@href="link.html" rel="external nofollow" rel="external nofollow" ][@id="i1"]')

# print(hxs)

# hxs = Selector(response=response).xpath('//a[contains(@href, "link")]')

# print(hxs)

# hxs = Selector(response=response).xpath('//a[starts-with(@href, "link")]')

# print(hxs)

# hxs = Selector(response=response).xpath('//a[re:test(@id, "i\d+")]')

# print(hxs)

# hxs = Selector(response=response).xpath('//a[re:test(@id, "i\d+")]/text()').extract()

# print(hxs)

# hxs = Selector(response=response).xpath('//a[re:test(@id, "i\d+")]/@href').extract()

# print(hxs)

# hxs = Selector(response=response).xpath('/html/body/ul/li/a/@href').extract()

# print(hxs)

# hxs = Selector(response=response).xpath('//body/ul/li/a/@href').extract_first()

# print(hxs)

# ul_list = Selector(response=response).xpath('//body/ul/li')

# for item in ul_list:

# v = item.xpath('./a/span')

# # 或

# # v = item.xpath('a/span')

# # 或

# # v = item.xpath('*/a/span')

# print(v)

總結

以上是生活随笔為你收集整理的python的xpath用法介绍_python爬虫之xpath的基本使用详解的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：二维稳态边界层问题MATLAB,第三章
下一篇： python把图片转为字符画_Pytho