最新Python爬取淘宝评论(2020年4月)
目前網站上很多爬取評論的博文都已經失效了,所以自己嘗試寫一篇目前可行的爬取代碼。我們以爬取淘寶的APPLE官方旗艦店的Iphone11為例。
打開淘寶頁面,按下F12快捷鍵,進入開發者模式。點擊累計評價。然后在開發者窗口左上角輸入list,找到相應的進程。
這里發現了評論。尋找請求頭headers信息。找到請求的url,發現其中只有三個參數是會改變的。發現其中的規律。
首先是"currentPage"參數,這是評論的頁碼,
第二個是"_ksTS"參數,通過觀察得出這是一個時間戳,并且下劃線前面的是
13位數字,這是固定的,多余的時間戳都放到下劃線的后面。
這里用time模塊的time方法構造。
第三個參數是callback回調參數。這個參數前面的"jsonp"是固定的,后面的數字是time參數的最后三個數字加一,圖中的337=336+1。
"callback":str(int(t_list[1][3:])+1)這樣頁面的url就基本構造完成,只需把url的上述三個參數刪除即可。
其實這里的url里面的 ua 參數好像是可有可無的,不影響,可以自己嘗試一下。
url=“https://rate.tmall.com/list_detail_rate.htm?itemId=602659642364&sellerId=1917047079”
url構造好了現在只需構造請求頭信息,參數信息均可在Headers選項中找到。
現在將代碼整合:
import requests import time import json def get_content(url):t_param=time.time()t_list=str(t_param).split(".")headers={"Cookie":"","referer":"","User-Agent":""}params={"callback":str(int(t_list[1][3:])+1),"_ksTS":t_list[0]+t_list[1][:3]+"_"+t_list[1][3:],"currentPage":"1"}res=requests.get(url,params=params,headers=headers).textprint(res)這里我們先看一下獲取的文本的格式,可以看出這是一個json格式的,但是這個文本在前面多了冗余的部分我們需要將它刪除才能正確解析。
res=requests.get(url,params=params,headers=headers).text[len(str(int(t_list[1][3:])+1))+3:-1] #前面的多余部分就是"_ksTS"參數下劃線后面的部分 #注意末尾還有一個括號,不同評論索引需要進行相應的調整。
接下來使用json庫進行解析。輸出如下。這里如果報錯,應該是text處的索引不對,可以確認一遍進行修改。
要獲取我們的需要的信息需要進行索引。結果如下。
這里就基本運行完成??梢哉弦幌麓a并加入循環。
后續可以自己完善代碼,將結果寫入文件,也可以加入循環爬取更多頁碼的評論。這里不再詳寫。
代碼經本人實際運行,基本無誤,如有錯誤,請告知!謝謝!
總結
以上是生活随笔為你收集整理的最新Python爬取淘宝评论(2020年4月)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [react] super()和supe
- 下一篇: python爬淘宝评论源代码_一篇文章教