當前位置：首頁 > 编程语言 > python >内容正文

python

pythonurllib微博登录怎么删_Python使用cookielib和urllib2模拟登陆新浪微博并抓取数据...

發布時間：2025/3/20 python 42 豆豆

生活随笔收集整理的這篇文章主要介紹了 pythonurllib微博登录怎么删_Python使用cookielib和urllib2模拟登陆新浪微博并抓取数据... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

我們都知道HTTP是無連接的狀態協議，但是客戶端和服務器端需要保持一些相互信息，比如cookie，有了cookie，服務器才能知道剛才是這個用戶登錄了網站，才會給予客戶端訪問一些頁面的權限。

用瀏覽器登錄新浪微博，必須先登錄，登陸成功后，打開其他的網頁才能夠訪問。用程序登錄新浪微博或其他驗證網站，關鍵點也在于需要保存cookie，之后附帶cookie再來訪問網站，才能夠達到效果。

這里就需要Python的cookielib和urllib2等的配合，將cookielib綁定到urllib2在一起，就能夠在請求網頁的時候附帶cookie。

具體做法，首先第一步，用firefox的httpfox插件，在瀏覽器衷開始瀏覽新浪微博首頁，然后登陸，從httpfox的記錄中，查看每一步發送了那些數據請求了那個URL；之后再python里面，模擬這個過程，用urllib2.urlopen發送用戶名密碼到登陸頁面，獲取登陸后的cookie，之后訪問其他頁面，獲取微博數據。

具體代碼，來自豆瓣的一篇文章：地址

本人加了點注釋，歡迎大家一起品嘗該同學的完美代碼：

# coding=utf8

import urllib

import urllib2

import cookielib

import base64

import re

import json

import hashlib

# 獲取一個保存cookie的對象

cj = cookielib.LWPCookieJar()

# 將一個保存cookie對象，和一個HTTP的cookie的處理器綁定

cookie_support = urllib2.HTTPCookieProcessor(cj)

# 創建一個opener，將保存了cookie的http處理器，還有設置一個handler用于處理http的URL的打開

opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)

# 將包含了cookie、http處理器、http的handler的資源和urllib2對象板頂在一起

urllib2.install_opener(opener)

postdata = {

'entry': 'weibo',

'gateway': '1',

'from': '',

'savestate': '7',

'userticket': '1',

'ssosimplelogin': '1',

'vsnf': '1',

'vsnval': '',

'su': '',

'service': 'miniblog',

'servertime': '',

'nonce': '',

'pwencode': 'wsse',

'sp': '',

'encoding': 'UTF-8',

'url': 'http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack',

'returntype': 'META'

}

def get_servertime():

url = 'http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=dW5kZWZpbmVk&client=ssologin.js(v1.3.18)&_=1329806375939'

data = urllib2.urlopen(url).read()

p = re.compile('\((.*)\)')

try:

json_data = p.search(data).group(1)

data = json.loads(json_data)

servertime = str(data['servertime'])

nonce = data['nonce']

return servertime, nonce

except:

print 'Get severtime error!'

return None

def get_pwd(pwd, servertime, nonce):

pwd1 = hashlib.sha1(pwd).hexdigest()

pwd2 = hashlib.sha1(pwd1).hexdigest()

pwd3_ = pwd2 + servertime + nonce

pwd3 = hashlib.sha1(pwd3_).hexdigest()

return pwd3

def get_user(username):

username_ = urllib.quote(username)

username = base64.encodestring(username_)[:-1]

return username

def main():

username = 'www.crazyant.net' # 微博賬號

pwd = 'xxxx' # 微博密碼

url = 'http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.3.18)'

try:

servertime, nonce = get_servertime()

except:

return

global postdata

postdata['servertime'] = servertime

postdata['nonce'] = nonce

postdata['su'] = get_user(username)

postdata['sp'] = get_pwd(pwd, servertime, nonce)

postdata = urllib.urlencode(postdata)

headers = {'User-Agent':'Mozilla/5.0 (X11; Linux i686; rv:8.0) Gecko/20100101 Firefox/8.0'}

# 其實到了這里，已經能夠使用urllib2請求新浪任何的內容了，這里已經登陸成功了

req = urllib2.Request(

url=url,

data=postdata,

headers=headers

)

result = urllib2.urlopen(req)

text = result.read()

# print text

p = re.compile('location\.replace\(\'(.*?)\'\)')

try:

login_url = p.search(text).group(1)

print login_url

# print login_url

urllib2.urlopen(login_url)

print "login success"

except:

print 'Login error!'

# 測試讀取數據，下面的URL，可以換成任意的地址，都能把內容讀取下來

req = urllib2.Request(url='http://e.weibo.com/aj/mblog/mbloglist?page=1&count=15&max_id=3463810566724276&pre_page=1&end_id=3458270641877724&pagebar=1&_k=134138430655960&uid=2383944094&_t=0&__rnd=1341384513840',)

result = urllib2.urlopen(req)

text = result.read()

print len(result.read())

# unicode(eval(b),"utf-8")

print eval("u'''" + text + "'''")

main()

其實獲取了模擬登陸后的urllib2，可以做抓數據等任何事情，你甚至可以寫一個多線程的爬蟲來爬遍新浪微博，我一直有這個想法，可從來沒有實現。如果您有什么進展，請聯系我共同進步。

總結

以上是生活随笔為你收集整理的pythonurllib微博登录怎么删_Python使用cookielib和urllib2模拟登陆新浪微博并抓取数据...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： mysql主从同步_utf8_MySQL
下一篇： python嵌入html_Python

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

pythonurllib微博登录怎么删_Python使用cookielib和urllib2模拟登陆新浪微博并抓取数据...

總結