日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python伪装浏览器什么意思_用python2和python3伪装浏览器爬取网页

發(fā)布時間:2024/10/6 python 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python伪装浏览器什么意思_用python2和python3伪装浏览器爬取网页 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

python網(wǎng)頁抓取功能非常強大,使用urllib或者urllib2可以很輕松的抓取網(wǎng)頁內(nèi)容。但是很多時候我們要注意,可能很多網(wǎng)站都設(shè)置了防采集功能,不是那么輕松就能抓取到想要的內(nèi)容。

今天我來分享下載python2和python3中都是如何來模擬瀏覽器來跳過屏蔽進(jìn)行抓取的。

最基礎(chǔ)的抓取:

#! /usr/bin/env python

# -*- coding=utf-8 -*-

# @Author pythontab

import urllib.request

url = "http://www.***.com"

html = urllib.request.urlopen(url).read()

print(html)

但是...有些網(wǎng)站不能抓取,進(jìn)行了防采集設(shè)置,所以我們要變換一下方法

python2中(最新穩(wěn)定版本python2.7)

#! /usr/bin/env python

# -*- coding=utf-8 -*-

# @Author pythontab.com

import urllib2

url="http://pythontab.com"

req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',

'Accept':'text/html;q=0.9,*/*;q=0.8',

'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',

'Accept-Encoding':'gzip',

'Connection':'close',

'Referer':None #注意如果依然不能抓取的話,這里可以設(shè)置抓取網(wǎng)站的host

}

req_timeout = 5

req = urllib2.Request(url,None,req_header)

resp = urllib2.urlopen(req,None,req_timeout)

html = resp.read()

print(html)

python3中(最新穩(wěn)定版本

#! /usr/bin/env python

# -*- coding=utf-8 -*-

# @Author pythontab

import urllib.request

url = "http://www.***.com"

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',

'Accept':'text/html;q=0.9,*/*;q=0.8',

'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',

'Accept-Encoding':'gzip',

'Connection':'close',

'Referer':None #注意如果依然不能抓取的話,這里可以設(shè)置抓取網(wǎng)站的host

}

opener = urllib.request.build_opener()

opener.addheaders = [headers]

data = opener.open(url).read()

print(data)

#! /usr/bin/env python

# -*- coding:utf-8 -*-

# @Author pythonwc

import urllib2

url="http://www.baidu.com"

def getPage(html):

req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',

'Accept':'text/html;q=0.9,*/*;q=0.8',

'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',

'Accept-Encoding':'gzip',

'Connection':'close',

'Referer':None #注意如果依然不能抓取的話,這里可以設(shè)置抓取網(wǎng)站的host

}

req_timeout = 5

req = urllib2.Request(url,None,req_header)

resp = urllib2.urlopen(req,None,req_timeout)

html = resp.read()

print(html)

總結(jié)

以上是生活随笔為你收集整理的python伪装浏览器什么意思_用python2和python3伪装浏览器爬取网页的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。