日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

crawler碎碎念5 豆瓣爬取操作之登录练习

發(fā)布時(shí)間:2024/1/17 编程问答 55 豆豆
生活随笔 收集整理的這篇文章主要介紹了 crawler碎碎念5 豆瓣爬取操作之登录练习 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
import requestsimport html5libimport refrom bs4 import BeautifulSoups = requests.Session()      #這里要提一點(diǎn),就是session的話就是對(duì)會(huì)話的一種維持,因?yàn)閞equest缺乏持續(xù)性,僅限于2個(gè)相鄰的頁面url_login = 'http://accounts.douban.com/login'url_contacts = 'https://www.douban.com/people/****/contacts'formdata = {'redir':'https://www.douban.com',      #重定向'form_email':'t.t.panda@hotmail.com','form_password':'xxxxxxxxxxxxxx''login':u'登陸' }‘‘‘關(guān)于字符串前面的功能的補(bǔ)充1.r/R 表示非轉(zhuǎn)義的原始字符串,比如在字符串中如果出現(xiàn)\n是換行,但是如果在字符串的前面添加r則表示\和n兩個(gè)字符,一般常見于正則表達(dá)式中。2.b Python3里默認(rèn)的str是(Python2里的)unicode, bytes是(Python2)的str, b前綴代表的就是bytes。 Python2里, b前綴沒什么具體意義, 只是為了兼容Python3的這種寫法。3.u/U 表示unicode字符串 ,不是僅僅是針對(duì)中文, 可以針對(duì)任何的字符串,代表是對(duì)字符串進(jìn)行unicode編碼。 一般英文字符在使用各種編碼下, 基本都可以正常解析, 所以一般不帶u;但是中文, 必須表明所需編碼, 否則一旦編碼轉(zhuǎn)換就會(huì)出現(xiàn)亂碼。 建議所有編碼方式采用UTF-8。’‘’headers = ' 這里自己打開開發(fā)者工具查看瀏覽器,復(fù)制粘貼就行了'r = requestys.post(url_login,data = formdata,headers= headers)content = r.textsoup = BeautifulSoup(content,'html5lib')captcha = soup.findall('img',id = 'captcha_image') #查看是否有驗(yàn)證碼if captcha:captcha_url = captcha['src']re_captcha_id = r'<input type-"hidden"name="captcha-id" value = "(.*?)"/'captcha_id = re.findall(re_captcha_id,content)print(captcha_id)print(captcha_url)print(captcha_url)capycha_text = input('please input the captcha:')formdata['captacha-solution'] =captcha_textformdata['captacha-id'] =captcha_idr = requests.post(url_login,data = formdata,headers = headers)print(r.text)r = s.get(url_conteacts)with open('contacts.txt','w+',encoding = 'utf-8'') as f: f.write(r.text)

?

但是我們也發(fā)現(xiàn)每一次登陸都要輸入密碼和賬戶,還要驗(yàn)證,這也實(shí)在是太麻煩了,所以可以通過cookies,這就是我們常說的那些記住當(dāng)前網(wǎng)址的密碼

import requests
headers
= {........} cookies = {...........} url = 'xxxxxxxxxxxx'r= requests.get(url,cookies=cookies,headers = headers) print(r.text)with open('sssss.txt','wb+') as f :f.write(r.content)

這其實(shí)就是最基本的一個(gè)爬蟲套路模板了

關(guān)于上面的那個(gè)爬蟲,爬出來的其實(shí)是驗(yàn)證碼的圖片,還需要手動(dòng)打開然后識(shí)別圖片里面的數(shù)字再手動(dòng)輸入,這個(gè)其實(shí)也是很麻煩的

這里先給出思路以后驗(yàn)證(如果還記得的呼哈)

1,利用selenium打開圖片所在網(wǎng)頁,保存這張圖片,把圖片讀取到百度識(shí)圖的api中,得到的答案自動(dòng)反饋給程序

2,有一種設(shè)想,既然最后他要驗(yàn)證你輸入的驗(yàn)證碼對(duì)不對(duì),那是不是圖片的網(wǎng)頁信息里面就夾雜著要比對(duì)的信息,那我是不是可以直接爬取這個(gè)然后反饋給程序?

3,要么索性偷個(gè)懶,鏈接掛到網(wǎng)上的驗(yàn)證碼識(shí)別平臺(tái)(滑稽)

轉(zhuǎn)載于:https://www.cnblogs.com/xingnie/p/9703386.html

總結(jié)

以上是生活随笔為你收集整理的crawler碎碎念5 豆瓣爬取操作之登录练习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 狠狠操网址 | 国产麻豆成人传媒免费观看 | 九九热在线免费视频 | 136fldh导航福利微拍 | 天天综合在线视频 | 在线免费观看黄网 | 丁香婷婷网 | 欧美级毛片 | 色婷婷综合久久久中文字幕 | 91在线视频免费观看 | 国产精品一区二区免费看 | 公侵犯一区二区三区 | 日韩中文字幕 | 精品无码一级毛片免费 | 日韩免费视频一区 | 人人看人人看 | 午夜在线看 | 一级片黄色片 | 国产做受91 | 老司机午夜在线 | 国产中文字幕免费 | 日韩中文字幕影院 | 久久午夜夜伦鲁鲁片无码免费 | 国产精品不卡视频 | 日韩在线视频你懂的 | 欧美日韩免费在线观看 | 国产精品国产馆在线真实露脸 | 亚洲综合色成人 | 亚洲精品另类 | wwwwww在线观看 | 青娱乐青青草 | 免费裸体美女网站 | 人人草人人插 | 黄色录像一级大片 | av在线不卡播放 | 少妇高潮一区二区三区99小说 | 古代玷污糟蹋np高辣h文 | 国产91亚洲 | 欧洲成人免费视频 | 久久这里只有精品99 | 美美女高清毛片视频免费观看 | 自拍偷拍激情 | 91精品视频在线免费观看 | 国产伊人网 | 在线观看高清视频 | 天堂网ww| 亚洲欧美日韩网站 | 国产精品com | 一道本av | 性色av免费观看 | 成人免费网站黄 | 视频黄页在线观看 | 91嫩草精品 | 五月天综合 | 探花av在线| 97国产在线视频 | 全国最大色 | 麻豆91av| 精品处破女学生 | 黄色片91| 美女尻逼视频 | 成人精品福利 | 欧洲性生活片 | 男男啪啪网站 | 国产传媒欧美日韩 | 2017天天干| 无码人妻精品一区二区三区66 | а√天堂资源在线 | 超碰在线最新 | 欧美一区国产一区 | 亚洲中文一区二区三区 | 伊人色影院 | 日本aaa视频 | 手机午夜视频 | 三级黄片毛片 | 婷婷九月丁香 | 久久亚洲精品国产精品黑人v | 夜色一区 | 超碰资源在线 | 真人毛片97级无遮挡精品 | 99久久久无码国产精品免费麻豆 | 婷婷一区二区三区四区 | 日批视频免费播放 | 波多野结衣高清在线 | 免费成人在线电影 | 色天堂视频 | 性自由色xxxx免费视频 | 亚洲 欧美 精品 | 人人干人人舔 | 午夜性视频 | 亚洲福利在线观看 | 欧美人妖另类 | 国产精品无码一区二区三 | 日韩精品在线一区二区 | 绿帽人妻精品一区二区 | 老版水浒传83版免费播放 | 人妻精品久久久久中文字幕69 | 欧美午夜精品一区二区三区 | 91网页在线观看 |