日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

最新Python爬取淘宝评论(2020年4月)

發布時間:2023/12/9 python 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 最新Python爬取淘宝评论(2020年4月) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

目前網站上很多爬取評論的博文都已經失效了,所以自己嘗試寫一篇目前可行的爬取代碼。我們以爬取淘寶的APPLE官方旗艦店的Iphone11為例。
打開淘寶頁面,按下F12快捷鍵,進入開發者模式。點擊累計評價。然后在開發者窗口左上角輸入list,找到相應的進程。


這里發現了評論。尋找請求頭headers信息。找到請求的url,發現其中只有三個參數是會改變的。發現其中的規律。
首先是"currentPage"參數,這是評論的頁碼,
第二個是"_ksTS"參數,通過觀察得出這是一個時間戳,并且下劃線前面的是
13位數字,這是固定的,多余的時間戳都放到下劃線的后面。
這里用time模塊的time方法構造。

import time t_param=time.time() t_list=str(t_param).split(".") #將時間戳格式拆分 t_list[0]+t_list[1][:3] #這是下劃線前面的部分 t_list[1][3:] #這是下劃線后面的部分

第三個參數是callback回調參數。這個參數前面的"jsonp"是固定的,后面的數字是time參數的最后三個數字加一,圖中的337=336+1。

"callback":str(int(t_list[1][3:])+1)

這樣頁面的url就基本構造完成,只需把url的上述三個參數刪除即可。

其實這里的url里面的 ua 參數好像是可有可無的,不影響,可以自己嘗試一下。

url=“https://rate.tmall.com/list_detail_rate.htm?itemId=602659642364&sellerId=1917047079”
url構造好了現在只需構造請求頭信息,參數信息均可在Headers選項中找到。

headers={"Cookie":"""referer":"""User-Agent":""}

現在將代碼整合:

import requests import time import json def get_content(url):t_param=time.time()t_list=str(t_param).split(".")headers={"Cookie":"","referer":"","User-Agent":""}params={"callback":str(int(t_list[1][3:])+1),"_ksTS":t_list[0]+t_list[1][:3]+"_"+t_list[1][3:],"currentPage":"1"}res=requests.get(url,params=params,headers=headers).textprint(res)

這里我們先看一下獲取的文本的格式,可以看出這是一個json格式的,但是這個文本在前面多了冗余的部分我們需要將它刪除才能正確解析。

res=requests.get(url,params=params,headers=headers).text[len(str(int(t_list[1][3:])+1))+3:-1] #前面的多余部分就是"_ksTS"參數下劃線后面的部分 #注意末尾還有一個括號,不同評論索引需要進行相應的調整。


接下來使用json庫進行解析。輸出如下。這里如果報錯,應該是text處的索引不對,可以確認一遍進行修改。

res2=json.loads(res) res3=json.dumps(res2,indent=4) #以上兩步是為了美化json的輸出格式,方便獲取內容,省略也可。 result=json.loads(res3)


要獲取我們的需要的信息需要進行索引。結果如下。

result_content=result["rateDetail"]["rateList"][0]["rateContent"] #索引中的[0]是獲取第一條評論,可以進行循環一頁獲取20條評論。這里只是示例。


這里就基本運行完成??梢哉弦幌麓a并加入循環。

import requests import time import json def get_content(url):t_param=time.time()t_list=str(t_param).split(".")headers={"Cookie":"","referer":"","User-Agent":""}params={"callback":str(int(t_list[1][3:])+1),"_ksTS":t_list[0]+t_list[1][:3]+"_"+t_list[1][3:],"currentPage":"1"}res=requests.get(url,params=params,headers=headers).text[len(str(int(t_list[1][3:])+1))+3:-1]res2=json.loads(res)res3=json.dumps(res2,indent=4)#以上兩步是為了美化json的輸出格式,方便獲取內容,省略也可。result=json.loads(res3)for items in range(20): result_content=result["rateDetail"]["rateList"][items]["rateContent"]print(result_content)

后續可以自己完善代碼,將結果寫入文件,也可以加入循環爬取更多頁碼的評論。這里不再詳寫。
代碼經本人實際運行,基本無誤,如有錯誤,請告知!謝謝!

總結

以上是生活随笔為你收集整理的最新Python爬取淘宝评论(2020年4月)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。