python爬取新闻网站标题_python如何正确抓取网页标题
有一個(gè)簡(jiǎn)單的錯(cuò)誤。HTML文件不能用正則表達(dá)式parse,因?yàn)樗奈姆ū日齽t表達(dá)式高級(jí),具體原因參考這里。
推薦解析這種HTML用一些第三方庫(kù),例如mechanize
我的代碼如下:import mechanize
import cookielib
if __name__=='__main__':
br = mechanize.Browser()
br.set_cookiejar(cookielib.LWPCookieJar()) # Cookie jar
br.set_handle_equiv(True) # Browser Option
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
br.open("http://apple.com")
print br.title()
輸出為Apple
對(duì)于mechanize的詳細(xì)使用,參考這里
安裝mechanize,就easy_install一下就好。
總結(jié)
以上是生活随笔為你收集整理的python爬取新闻网站标题_python如何正确抓取网页标题的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 三角函数π/2转化_【高中数学说课】三角
- 下一篇: websocket python爬虫_p