日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬取京东网页评论(动态网页)

發布時間:2025/4/9 编程问答 42 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬取京东网页评论(动态网页) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.當網頁打開的方式不同時,在開發者選項找到的包含評論的文件地址不同,比如第一種,當我們找到的評論界面是含有下一頁選項的時候(如下圖)。我們在左邊文件界面發現包含評論的網頁地址名字為‘'productPageComments.action'開頭的,點開查看header和response可以分析得網址的規律,Query string? parameters 里面的page對應著評論的頁面,改變這個參數就可以實現評論網頁的翻頁了。

對于網頁的內容點開response可以看見是json格式的網頁,所以復制下來可以用在線的json在線解析工具解析一下,看清楚網站的結構。我隨便找了個json解析的網站,分析了一下這個網頁的結構。

2.當評論網頁是以另外一種方式打開,如下圖,打開后網頁可以一直往下拖自動加載評論,不需要點擊下一頁(也不包含下一頁選項)。這時我們在左邊的文件選項中找到包含評論的網頁地址名字為‘'getcommentlist'開頭的,其他的內容和上面一樣,找到url的規律,再到網站里用爬蟲規則來提取需要的信息。

3.小技巧,當打開開發者選項時,在network里面文件特別多,找到想要的文件比較困難,可以按住'ctrl +shift+F',調出search選項,鍵入關鍵詞,在打開的文件中查找包含關鍵詞的文件。如下圖,查找包含‘評論’的文件

4.因為這些動態網頁通常都是腳本(json,xml)可以點擊'Type'選項對文件進行自動歸類,在script類型中找相應的評論文件,這樣可以接更清晰,一目了然,如下圖

?5.爬取的代碼

整體爬取的思路,首先,確定爬去的網頁是否是動態網頁,如果直接對爬取網頁打開源代碼可以看見所有的需要的信息,并且可以直接獲得每一頁的網頁的url,那么靜態網頁就不需要上面的那些操作了,直接看源代碼用寫爬蟲了。如果針對某一產品打開不同網頁的評論頁面但是url地址都不變,說明隱藏了url的其他部分,鑒定為動態網頁,運用上面的方法打開開發者選項,找到對應的爬去的網頁的文件,獲取url參數,找到地址變動的規律,一般都是頁面page的變動。找到url地址就好辦了,找到某一個爬取頁面,分析頁面結構,用requests,BeautifulSoup,re等抽取需要的信息。下面是爬取京東小米手機的代碼,因為網站反扒,所以限定了爬去的時間,不然爬太快會報錯。關于json之前不太明白,查了一下后就是網頁用字典形式來變現出來,網頁結構清晰,易于處理。這里爬的網頁就是json格式。

1 from bs4 import BeautifulSoup 2 import requests 3 import re,json 4 import pandas as pd 5 import time 6 7 #京東小米官方網站爬取小米6X的評論 8 #動態網頁爬取 9 10 def getHtml(url,data): #只輸入URL的主體部分,后面的參數用下面的字典附加上 11 try: 12 r=requests.get(url,params=data) 13 r.raise_for_status() 14 r.encoding=r.apparent_encoding 15 return r.text 16 except: 17 print('爬取失敗') 18 19 def getComment(html):#獲得一頁的評論 20 commentList=[] 21 i = json.dumps(html) # 將頁面內容編碼成json數據,(無論什么格式的數據編碼后都變成了字符串類型str) 22 j = json.loads(i) # 解碼,將json數據解碼為Python對象 23 # print(type(j)) 24 comment = re.findall(r'{"productAttr":.*}', j) # 對網頁內容篩選找到我們想要的數據,得到值為字典的字符串即'{a:1,b:2}' 25 #print(comment) 26 comm_dict = json.loads(comment[0]) # 將json對象obj解碼為對應的字典dict 27 # print(type(comm_dict)) 28 commentSummary = comm_dict['comments'] # 得到包含評論的字典組成的列表 29 for comment in commentSummary: # 遍歷每個包含評論的字典,獲得評論和打分 30 c_content = ''.join(comment['content'].split()) # 獲得評論,由于有的評論有換行,這里用split()去空格,換行,并用join()連接起來形成一整段評論,便于存儲 31 score = comment['score'] # 用戶打分 32 # print(score) 33 # print(c_content) 34 commentList.append([score,c_content]) 35 return commentList 36 37 '''獲得多頁評論''' 38 def conments(url,num):#url主體和爬取網頁的數量 39 data = {'callback': 'fetchJSON_comment98vv6708', # 調整頁數page 40 'productId': '7437756', 41 'score': 0, 42 'sortType': 5, 43 'page': 0, 44 'pageSize': 10, 45 'isShadowSku': 0, 46 'rid': 0, 47 'fold': 1 48 } 49 comments=[] 50 for i in range(num+1): 51 try:#防止網頁提取失敗,使爬取終斷,直接跳過失敗頁,繼續爬取 52 data['page']=i 53 html = getHtml(url, data) 54 comment = getComment(html) 55 except: 56 continue 57 comments+=comment 58 print('頁數',i) 59 time.sleep(3)#由于網站反爬蟲,所以每爬一頁停3秒 60 # if i/20==0: 61 # time.sleep(5) 62 return comments 63 64 if __name__ =='__main__': 65 time_start = time.time() 66 url = 'https://sclub.jd.com/comment/productPageComments.action?' 67 comm=conments(url,500) 68 print('共計%d條評論'%(len(comm)))#打印出總共多少條評論 69 name=['score','comment'] 70 file=pd.DataFrame(columns=name,data=comm) 71 file.to_csv('D:/machinelearning data/crawlerData/mi6x_JD500.csv',index=False) 72 time_end = time.time() 73 print('耗時%s秒' % (time_end - time_start))

?

轉載于:https://www.cnblogs.com/zz22--/p/9320614.html

總結

以上是生活随笔為你收集整理的爬取京东网页评论(动态网页)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 精品婷婷色一区二区三区蜜桃 | 欧美精品久久久久a | www.中文字幕.com | 三级福利 | 日韩超碰在线 | 我要色综合天天 | 黄色一级毛片 | 一区二区三区在线免费观看视频 | 国内自拍偷拍视频 | 国产免费又爽又色又粗视频 | 偷拍自拍一区 | 丰满少妇xbxb毛片日本 | 亚洲综合一二三区 | 狠狠插综合| 6080福利 | 灌满闺乖女h高h调教尿h | 正在播放一区 | 色国产精品 | 尤物在线观看视频 | 99久久国产免费 | 啪啪影音 | 天堂成人网| 国产熟女精品视频 | 国产人妻黑人一区二区三区 | 解开人妻的裙子猛烈进入 | 欧美极品第一页 | 114国产精品久久免费观看 | 99色在线视频 | 男人的网址 | 国产av人人夜夜澡人人爽麻豆 | 黄色av一区二区三区 | 男女午夜视频在线观看 | 91精品国产综合久久香蕉 | 国产毛片在线 | 少妇高潮淫片免费观看 | 色呦呦网站在线观看 | 国产又黄又猛的视频 | 国产二区三区视频 | 成年人视屏 | 在线不卡一区 | 视频日韩 | 国产伦精品一区二区三区妓女下载 | 久久国产精品久久精品国产 | 美女扒开内裤让男人捅 | 91成人免费观看 | 欧美极品jizzhd欧美爆 | 色老头av | 亚洲乱码国产乱码精品精剪 | 男生操女生网站 | 欧美一卡二卡在线观看 | 紧身裙女教师三上悠亚红杏 | 日本精品黄 | 国产主播自拍av | 亚洲精品视频免费 | av播放网站| 日日干影院| 丝袜性爱视频 | 亚洲黄色成人 | 亚洲日日操 | 在线观看日韩精品 | 亚洲 国产 欧美 日韩 | 成年人的视频网站 | 欧美亚洲中文精品字幕 | 看黄色一级| 久久国产成人精品av | 艳母动漫在线播放 | 一本—道久久a久久精品蜜桃 | 国产主播在线播放 | www,av在线| 免费拍拍拍网站 | 欧美性视频网站 | 天天综合欧美 | 调教撅屁股啪调教打臀缝av | 国产精品不卡视频 | 精品无码久久久久久久久成人 | 777毛片 | 久艹在线| 91丨九色丨蝌蚪丨老版 | 日本亚洲免费 | 亚洲AV无码精品自拍 | 国模吧无码一区二区三区 | 北岛玲av在线 | 日韩免费观看一区二区三区 | 欧美日韩1区2区3区 亚洲日本精品视频 | 欧美八区| 小柔的淫辱日记(h | 黄色在线视频网站 | 国产欧美在线观看不卡 | 大胸美女网站 | 在线观看免费黄色小视频 | 国内精品视频在线观看 | 国产夫妇交换聚会群4p | 捆绑最紧bdsm视频 | 懂色av蜜臀av粉嫩av分享 | 永久免费成人代码 | 香蕉大人久久国产成人av | 国产综合福利 | 抽插丰满内射高潮视频 | 欧美 日韩 国产 高清 |