當前位置：首頁 >

使用python 提取html文件中的特定数据

發布時間：2025/4/14 21 豆豆

生活随笔收集整理的這篇文章主要介紹了使用python 提取html文件中的特定数据小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

python提供了SGMLParser類用于html文件的解析。用戶只需從SGMLParser類繼承子類，并在子類中對html文件做具體處理。

例如具有如下結構的html文件

[html]?view plaincopy

<div?class='entry-content'>??

<p>感興趣內容1</p>??

<p>感興趣內容2</p>??

……??

<p>感興趣內容n</p>??

</div>??

<div?class='content'>??

<p>內容1</p>??

<p>內容2</p>??

……??

<p>內容n</p>??

</div>??

我們嘗試獲得'感興趣內容'

對于文本內容,我們保存到IDList中。
可是如何標記我們遇到的文本是感興趣的內容呢，也就是，處于
[html]?view plaincopy

<div?class='entry-content'>??

<p>這里的內容</p>??

<p>還有這里</p>??

……??

<p>以及這里的內容</p>??

</div>??

思路如下

遇到<div class='entry-content'> 設置標記flag = True

遇到</div>后設置標記flag = False

當flag 為True時遇到<p> 設置標記getdata = True

遇到</p> 且getdata = True,設置getdata = False

python為我們提供了SGMLParser類，SGMLParser 將 HTML 分析成 8 類數據[1]，然后對每一類調用單獨的方法:使用時只需繼承SGMLParser 類，并編寫頁面信息的處理函數。

可用的處理函數如下：

開始標記 (Start tag)?

是一個開始一個塊的 HTML 標記，象 <html>，<head>，<body> 或 <pre> 等，或是一個獨一的標記，象 <br> 或 <img> 等。當它找到一個開始標記 tagname，SGMLParser 將查找名為?start_tagname?或?do_tagname?的方法。例如，當它找到一個 <pre> 標記，它將查找一個 start_pre 或 do_pre 的方法。如果找到了，SGMLParser 會使用這個標記的屬性列表來調用這個方法；否則，它用這個標記的名字和屬性列表來調用?unknown_starttag?方法。?

結束標記 (End tag)?

是結束一個塊的 HTML 標記，象 </html>，</head>，</body> 或 </pre> 等。當找到一個結束標記時，SGMLParser 將查找名為?end_tagname?的方法。如果找到，SGMLParser 調用這個方法，否則它使用標記的名字來調用?unknown_endtag?。?

字符引用 (Character reference)?

用字符的十進制或等同的十六進制來表示的轉義字符，象  。當找到，SGMLParser 使用十進制或等同的十六進制字符文本來調用?handle_charref?。?

實體引用 (Entity reference)?

HTML 實體，象 ©。當找到，SGMLParser 使用 HTML 實體的名字來調用?handle_entityref?。?

注釋 (Comment)?

HTML 注釋, 包括在 之間。當找到，SGMLParser 用注釋內容來調用?handle_comment。?

處理指令 (Processing instruction)?

HTML 處理指令，包括在 <? ... > 之間。當找到，SGMLParser 用處理指令內容來調用?handle_pi。?

聲明 (Declaration)?

HTML 聲明，如 DOCTYPE，包括在 <! ... >之間。當找到，SGMLParser 用聲明內容來調用?handle_decl。?

文本數據 (Text data)?

文本塊。不滿足其它 7 種類別的任何東西。當找到，SGMLParser 用文本來調用?handle_data。?

綜上，的到如下代碼

[python]?view plaincopy

from?sgmllib?import?SGMLParser??

class?GetIdList(SGMLParser):??

????def?reset(self):??

????????self.IDlist?=?[]??

????????self.flag?=?False??

????????self.getdata?=?False??

????????SGMLParser.reset(self)??

??????????

????def?start_div(self,?attrs):??

????????for?k,v?in?attrs:#遍歷div的所有屬性以及其值??

????????????if?k?==?'class'?and?v?==?'entry-content':#確定進入了<div?class='entry-content'>??

????????????????self.flag?=?True??

????????????????return??

????def?end_div(self):#遇到</div>??

????self.flag?=?False??

??????????????

????def?start_p(self,?attrs):??

????????if?self.flag?==?False:??

????????????return??

????????self.getdata?=?True??

[python]?view plaincopy

def?end_p(self):#遇到</p>??

????if?self.getdata:??

????????self.getdata?=?False??

def?handle_data(self,?text):#處理文本??

????if?self.getdata:??

????????self.IDlist.append(text)??

[python]?view plaincopy

def?printID(self):??

????for?i?in?self.IDlist:??

????????print?i??

上面的思路存在一個bug
遇到</div>后設置標記flag = False
如果遇到div嵌套怎么辦？
[html]?view plaincopy

<div?class='entry-content'><div>我是來搗亂的</div><p>感興趣</p></div>??

在遇到第一個</div>之后標記flag = False，導致無法的到‘感興趣內容’。
怎么辦呢？如何判斷遇到的</div>是和<div class='entry-content'>匹配的哪個呢？
很簡單，</div>和<div>是對應的，我們可以記錄他所處的層數。進入子層div verbatim加1,退出子層div ?verbatim減1.這樣就可以判斷是否是同一層了。

修改后 ?如下
[python]?view plaincopy

from?sgmllib?import?SGMLParser??

class?GetIdList(SGMLParser):??

????def?reset(self):??

????????self.IDlist?=?[]??

????????self.flag?=?False??

????????self.getdata?=?False??

????????self.verbatim?=?0??

????????SGMLParser.reset(self)??

??????????

????def?start_div(self,?attrs):??

????????if?self.flag?==?True:??

????????????self.verbatim?+=1?#進入子層div了，層數加1??

????????????return??

????????for?k,v?in?attrs:#遍歷div的所有屬性以及其值??

????????????if?k?==?'class'?and?v?==?'entry-content':#確定進入了<div?class='entry-content'>??

????????????????self.flag?=?True??

????????????????return??

????def?end_div(self):#遇到</div>??

????????if?self.verbatim?==?0:??

????????????self.flag?=?False??

????????if?self.flag?==?True:#退出子層div了，層數減1??

????????????self.verbatim?-=1??

????def?start_p(self,?attrs):??

????????if?self.flag?==?False:??

????????????return??

????????self.getdata?=?True??

??????????

????def?end_p(self):#遇到</p>??

????????if?self.getdata:??

????????????self.getdata?=?False??

????def?handle_data(self,?text):#處理文本??

????????if?self.getdata:??

????????????self.IDlist.append(text)??

??????????????

????def?printID(self):??

????????for?i?in?self.IDlist:??

????????????print?i??

最后? ?建立了我們自己的類GetIdList后如何使用呢？
簡單建立實例 t = GetIdList()
the_page為字符串，內容為html
t.feed(the_page)#對html解析

t.printID()打印出結果

全部測試代碼為

[python]?view plaincopy

from?sgmllib?import?SGMLParser??

class?GetIdList(SGMLParser):??

????def?reset(self):??

????????self.IDlist?=?[]??

????????self.flag?=?False??

????????self.getdata?=?False??

????????self.verbatim?=?0??

????????SGMLParser.reset(self)??

??????????

????def?start_div(self,?attrs):??

????????if?self.flag?==?True:??

????????????self.verbatim?+=1?#進入子層div了，層數加1??

????????????return??

????????for?k,v?in?attrs:#遍歷div的所有屬性以及其值??

????????????if?k?==?'class'?and?v?==?'entry-content':#確定進入了<div?class='entry-content'>??

????????????????self.flag?=?True??

????????????????return??

????def?end_div(self):#遇到</div>??

????????if?self.verbatim?==?0:??

????????????self.flag?=?False??

????????if?self.flag?==?True:#退出子層div了，層數減1??

????????????self.verbatim?-=1??

????def?start_p(self,?attrs):??

????????if?self.flag?==?False:??

????????????return??

????????self.getdata?=?True??

??????????

????def?end_p(self):#遇到</p>??

????????if?self.getdata:??

????????????self.getdata?=?False??

????def?handle_data(self,?text):#處理文本??

????????if?self.getdata:??

????????????self.IDlist.append(text)??

??????????????

????def?printID(self):??

????????for?i?in?self.IDlist:??

????????????print?i??

##import?urllib2??

##import?datetime??

##vrg?=?(datetime.date(2012,2,19)?-?datetime.date.today()).days??

##strUrl?=?'http://www.nod32id.org/nod32id/%d.html'%(200+vrg)??

##req?=?urllib2.Request(strUrl)#通過網絡獲取網頁??

##response?=?urllib2.urlopen(req)??

##the_page?=?response.read()??

the_page?='''''<html>?

<head>?

<title>test</title>?

</head>?

<body>?

<h1>title</h1>?

<div?class='entry-content'>?

<div?class=?'ooxx'>我是來搗亂的</div>?

<p>感興趣內容1</p>?

<p>感興趣內容2</p>?

……?

<p>感興趣內容n</p>?

<div?class=?'ooxx'>我是來搗亂的2<div?class=?'ooxx'>我是來搗亂的3</div></div>?

</div>?

<div?class='content'>?

<p>內容1</p>?

<p>內容2</p>?

……?

<p>內容n</p>?

</div>?

</body>?

</html>?

'''??

lister?=?GetIdList()??

lister.feed(the_page)??

lister.printID()??

執行后輸出為

[python]?view plaincopy

感興趣內容1??

感興趣內容2??

感興趣內容n??

總結

以上是生活随笔為你收集整理的使用python 提取html文件中的特定数据的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： PlayFramework入门教程
下一篇： python编码问题总结

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

使用python 提取html文件中的特定数据

總結