當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

小爬虫

發(fā)布時間：2023/12/25 综合教程 27 生活家

生活随笔收集整理的這篇文章主要介紹了小爬虫小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

爬蟲一般在網(wǎng)頁Post里找數(shù)據(jù),注意大部分網(wǎng)頁都已經(jīng)反爬,會出現(xiàn)主要對象加密的問題,比如百度翻譯就影藏了輸入的內(nèi)容,有道翻譯進行了MD5加密,不過廣大網(wǎng)友是給力,只要把網(wǎng)址里的_o去掉就又可以了

參考小甲魚的實例,我試著爬了下百度貼吧的圖片,還挺方便.

import urllib.request
import re

def open_url(url):
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36')
page= urllib.request.urlopen(req)
html =page.read().decode('utf-8')

return html

def get_img(html):
p=r'<img class="BDE_Image" src="([^"]+\.jpg)"' #findall會自動找出( )內(nèi)的內(nèi)容
imglist=re.findall(p,html)

#for each in imglist:
#print(each)
for each in imglist:
filename=each.split('/')[-1] #把要存儲的文件名分割出來
urllib.request.urlretrieve(each,filename,None)

if __name__=='__main__':
url = 'https://tieba.baidu.com/p/6055466318'
get_img(open_url(url))

總結(jié)

以上是生活随笔為你收集整理的小爬虫的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

爬虫