日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬取淘宝评论以及词云图

發布時間:2023/12/9 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬取淘宝评论以及词云图 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

我最近運氣可是不得了,某天騎上我心愛的小電瓶,哪里也不會堵車,雖知道天公不作美,我的手機從褲兜里面飄出來,結果摔壞了。沒辦法只能去某寶上重新購物下。
我們公司的同事推薦我買小米10,于是我就想看下用戶對于他們的評論。
首先是我們要找到含有評論的js文件。這里我是通過萬能Fiddler工具進行查找的。

我們可以看到這個url里面是包含評論。我們具體看看這個url

https://rate.tmall.com/list_detail_rate.htm?itemId=611525560119&spuId=1526565904&sellerId=2616970884&order=3&currentPage=1&append=0&content=1&tagId=&posi=&picture=&groupId=&ua=098%23E1hvBpvbvnQvUvCkvvvvvjiPnLFh1jrPnLdvgjYHPmPpAjlbnLLhAjYbRschzj1H3QhvCvvhvvvCvpvVvvpvvhCvkphvC99vvOC0B4yCvv9vvUmt4v%2BzxfyCvm9vvvvvphvvvvvv93avpvkEvvmm86Cv2vvvvUUdphvUOQvv9krvpv3FmphvLvCad9vj8txrAWoK53n5A47t5BwsWD0l24VHR4hSot79D76Xe366%2BExr1CKKNB3r1n3lDfUf8wBl%2B87J5jX2sb2XSfpAOH2%2BFOcn%2B3vPvpvhvv2MMsyCvvpvvvvviQhvCvvv9U8CvpvZ7DKPMsbw7Di4XJS5MjE4%2Bxdxz69tvpvhvvvvvv%3D%3D&needFold=0&_ksTS=1594110499397_540&callback=jsonp541

我們看下這個url,里面有幾個重點參數,可以通過幾個重點參數來構建url。
itemId:產品ID
sellerId:店鋪ID
currentPage:內容頁數
callback :回調

代碼如下:

url="https://rate.tmall.com/list_detail_rate.htm"headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:75.0) Gecko/20100101 Firefox/75.0', 'Referer':'https://detail.tmall.com/item.htm', 'Cookie': '自己填寫' } commentsstr="" for j in range(15):params={'itemId':'611525560119','sellerId' :'2616970884','currentPage':j,'callback':'jsonp552',}response=requests.get(url,params,headers=headers).content.decode('utf-8')[11:-1]response = json.loads(response)

通過截取response,再利用loads將其轉化為字典,現在就是再字典中獲取評論,接下來我們看看字典是什么樣子的吧

評論都在一個列表里面,這個列表對應的字典的鍵是rateList,我們可以先得到列表,即是rateList=response[‘rateDetail’][‘rateList’]
,然后遍歷這個列表。
代碼如下:

rateList=response['rateDetail']['rateList']for i in rateList:commentsstr+=i['rateContent']

得到評論的字符串以后,通過jieba分詞,在利用wordcloud畫出詞云圖

commentsstr=commentsstr.replace('手機','') commentsstr=commentsstr.replace('小米','') ls = jieba.lcut(commentsstr) # 將列表中的單詞連接成一個字符串 txt = " ".join(ls) w = wordcloud.WordCloud(width = 1000, height = 700,background_color = "white",font_path = "msyh.ttc") bmp = w.generate(txt) image=w.to_image() image.show()

可以去掉一些無關緊要的詞,就比如“手機”,“小米”,“蘇寧”之類的。接下來我們看看運行的結果:

結論:
整體對待小米手機的評價應該是不錯,客服問題、運行速度、電池續航、快遞速度,拍照效果出現的頻率很是挺高的。
以前小米大家最為吐槽的發熱,現在也是退居幕后了。

完整代碼:

import requests import json import jieba import wordcloud import matplotlib.pyplot as plturl="https://rate.tmall.com/list_detail_rate.htm"headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:75.0) Gecko/20100101 Firefox/75.0', 'Referer':'https://detail.tmall.com/item.htm', 'Cookie': '自己填寫'} commentsstr="" for j in range(15):params={'itemId':'611525560119','sellerId' :'2616970884','currentPage':j,'callback':'jsonp552',}response=requests.get(url,params,headers=headers).content.decode('utf-8')response = json.loads(response[11:-1])rateList=response['rateDetail']['rateList']for i in rateList:commentsstr+=i['rateContent'] commentsstr=commentsstr.replace('手機','') commentsstr=commentsstr.replace('小米','') ls = jieba.lcut(commentsstr) # 將列表中的單詞連接成一個字符串 txt = " ".join(ls) w = wordcloud.WordCloud(width = 1000, height = 700,background_color = "white",font_path = "msyh.ttc") bmp = w.generate(txt) image=w.to_image() image.show()

總結

以上是生活随笔為你收集整理的爬取淘宝评论以及词云图的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。