當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python伪装浏览器什么意思_用python2和python3伪装浏览器爬取网页

發(fā)布時間：2024/10/6 python 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 python伪装浏览器什么意思_用python2和python3伪装浏览器爬取网页小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

python網(wǎng)頁抓取功能非常強大，使用urllib或者urllib2可以很輕松的抓取網(wǎng)頁內(nèi)容。但是很多時候我們要注意，可能很多網(wǎng)站都設(shè)置了防采集功能，不是那么輕松就能抓取到想要的內(nèi)容。

今天我來分享下載python2和python3中都是如何來模擬瀏覽器來跳過屏蔽進(jìn)行抓取的。

最基礎(chǔ)的抓取：

#! /usr/bin/env python

# -*- coding=utf-8 -*-

# @Author pythontab

import urllib.request

url = "http://www.***.com"

html = urllib.request.urlopen(url).read()

print(html)

但是...有些網(wǎng)站不能抓取，進(jìn)行了防采集設(shè)置，所以我們要變換一下方法

python2中(最新穩(wěn)定版本python2.7)

#! /usr/bin/env python

# -*- coding=utf-8 -*-

# @Author pythontab.com

import urllib2

url="http://pythontab.com"

req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',

'Accept':'text/html;q=0.9,*/*;q=0.8',

'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',

'Accept-Encoding':'gzip',

'Connection':'close',

'Referer':None #注意如果依然不能抓取的話，這里可以設(shè)置抓取網(wǎng)站的host

}

req_timeout = 5

req = urllib2.Request(url,None,req_header)

resp = urllib2.urlopen(req,None,req_timeout)

html = resp.read()

print(html)

python3中(最新穩(wěn)定版本

#! /usr/bin/env python

# -*- coding=utf-8 -*-

# @Author pythontab

import urllib.request

url = "http://www.***.com"

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',

'Accept':'text/html;q=0.9,*/*;q=0.8',

'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',

'Accept-Encoding':'gzip',

'Connection':'close',

'Referer':None #注意如果依然不能抓取的話，這里可以設(shè)置抓取網(wǎng)站的host

}

opener = urllib.request.build_opener()

opener.addheaders = [headers]

data = opener.open(url).read()

print(data)

#! /usr/bin/env python

# -*- coding:utf-8 -*-

# @Author pythonwc

import urllib2

url="http://www.baidu.com"

def getPage(html):

req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',

'Accept':'text/html;q=0.9,*/*;q=0.8',

'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',

'Accept-Encoding':'gzip',

'Connection':'close',

'Referer':None #注意如果依然不能抓取的話，這里可以設(shè)置抓取網(wǎng)站的host

}

req_timeout = 5

req = urllib2.Request(url,None,req_header)

resp = urllib2.urlopen(req,None,req_timeout)

html = resp.read()

print(html)

總結(jié)

以上是生活随笔為你收集整理的python伪装浏览器什么意思_用python2和python3伪装浏览器爬取网页的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： mysql strstr_实现 strS
下一篇： visual studio code p