日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

小爬虫

發(fā)布時間:2023/12/25 综合教程 26 生活家
生活随笔 收集整理的這篇文章主要介紹了 小爬虫 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

爬蟲一般在網(wǎng)頁Post里找數(shù)據(jù),注意大部分網(wǎng)頁都已經(jīng)反爬,會出現(xiàn)主要對象加密的問題,比如百度翻譯就影藏了輸入的內(nèi)容,有道翻譯進行了MD5加密,不過廣大網(wǎng)友是給力,只要把網(wǎng)址里的_o去掉就又可以了

參考小甲魚的實例,我試著爬了下百度貼吧的圖片,還挺方便.

import urllib.request
import re

def open_url(url):
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36')
page= urllib.request.urlopen(req)
html =page.read().decode('utf-8')

return html

def get_img(html):
p=r'<img class="BDE_Image" src="([^"]+\.jpg)"' #findall會自動找出( )內(nèi)的內(nèi)容
imglist=re.findall(p,html)

#for each in imglist:
#print(each)
for each in imglist:
filename=each.split('/')[-1] #把要存儲的文件名分割出來
urllib.request.urlretrieve(each,filename,None)

if __name__=='__main__':
url = 'https://tieba.baidu.com/p/6055466318'
get_img(open_url(url))

總結(jié)

以上是生活随笔為你收集整理的小爬虫的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。