日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python的网页解析器_python 之网页解析器

發布時間:2023/12/4 python 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python的网页解析器_python 之网页解析器 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、什么是網頁解析器

1、網頁解析器名詞解釋

首先讓我們來了解下,什么是網頁解析器,簡單的說就是用來解析html網頁的工具,準確的說:它是一個HTML網頁信息提取工具,就是從html網頁中解析提取出“我們需要的有價值的數據”或者“新的URL鏈接”的工具。

2、網頁解析圖解

二、python 網頁解析器

1、常見的python網頁

常見的python網頁解析工具有:re正則匹配、python自帶的html.parser模塊、第三方庫BeautifulSoup(重點學習)以及lxm庫。

2、常見網頁解析器分類

以上四種網頁解析器,是兩種不同類型的解析器:

(1)模糊匹配

re正則表達式即為字符串式的模糊匹配模式;

(2)結構化解析

BeatufiulSoup、html.parser與lxml為“結構化解析”模式,他們都以DOM樹結構為標準,進行標簽結構信息的提取。()

(3)結構化解析

我們在了解什么是結構化解析之前,需要先了解下什么是DOM樹這個概念。

DOM樹解釋:即文檔對象模型(Document Object Model),其樹形標簽結構,請見下圖。

而所謂結構化解析,就是網頁解析器它會將下載的整個HTML文檔當成一個Doucment對象,然后在利用其上下結構的標簽形式,對這個對象進行上下級的標簽進行遍歷和信息提取操作。

三、BeautifulSoup第三方庫

1、beautifulsoup4 簡介

Beautiful Soup 是一個可以從HTML或XML文件中提取數據的Python第三方庫.它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間.

2、beautifulsoup4 安裝

(1)安裝方法

我直接啟動cmd命令行運行環境,使用pip管理工具進行安裝,安裝命令如下。

$ pip install beautifulsoup4

(2)安裝測試

安裝完成后,我直接啟動IDLE環境,引入bs4測試其是否安裝成功。

>>>> from bs4 import BeautifulSoup

>>>> import bs4

>>>> print bs4

3、BeautifulSoup 語法

BeautifulSoup使用的一般流程就三步走:

(1) 創建BeautifulSoup對象

(2) 使用BeautifulSoup對象的操作方法find_all 與 find進行解讀搜索。

如:

>>>> soup.find_all('a')

>>>> soup.find(‘a’)

(3) 利用DOM結構標簽特性,進行更為詳細的節點信息提取。

4、使用方法(學習重點)

(1)第一步:創建BeautifulSoup對象(即DOM對象)

# 引入BeautifulSoup庫>>>> frombs4 import BeatifulSoup

# 根據HTML網頁字符串結構創建BeatifulSoup對象。>>>> soup =BeautifulSoup(html_doc, #HTML文檔字符串'html.parser', #HTML解析器

from_encoding= 'utf-8'#HTML文檔編碼

)

(2)第二步:搜索節點(find_all,find)

搜索節點方法:

soup.find_all() ---查找所有符合查詢條件的標簽節點,并返回一個列表。

soup.find()--- 查找符合符合查詢條件的第一個標簽節點。

實例1:搜索所有標簽

>>>> soup.find_all('a')

實例2:查找所有標簽符合標簽名為a,鏈接符合 /view/123.html的節點

1)實現方法1:

>>>> soup.find_all('a', href = '/view/123.html')

2)實現方法2:

>>>> soup.find_all('a', href = re.compile(r'/view/\d+\.html'))

實例3:查找所有標簽為名為a,class屬性為abc,文字為python的節點

>>>> soup.findall('a', class_= 'abc', string = 'python')

(3)第三步:訪問節點信息

比如我們得到節點: I love Python

1) 獲取節點名稱

>>>> node.name

2)獲取查找到的a節點的href屬性

>>>> node['href']

或者>>>> node.get('href')

3)獲取查找到的a節點的字符串內容

>>>> node.get_text()

5、BeautifulSoup 信息提取實例

html_doc = """

The Dormouse's story

The Dormouse's story

Once upon a time there were three little sisters; and their names wereElsie,LacieandTillie;

and they lived at the bottom of a well.

...

"""# 獲取所有a標簽節點內容

links= BeautifulSoup('a')

#查找已經獲取a標簽節點中所有連接for link inlinks:

pirnt(link.name,link['href'],link.get_text())

總結

以上是生活随笔為你收集整理的python的网页解析器_python 之网页解析器的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。