Python爬取京东笔记本电脑,来看看那个牌子最棒
@圖片自制by小si
一、前言
二、知識(shí)要求三、過(guò)程分析1.觀察主頁(yè)面和每個(gè)電腦界面的網(wǎng)址2.尋找每個(gè)電腦的id3.找到存放電腦的價(jià)格和評(píng)論數(shù)的信息4.爬取信息的思路四、urllib模塊爬取京東筆記本電腦的數(shù)據(jù)、并對(duì)其做一個(gè)可視化實(shí)戰(zhàn)五、可視化結(jié)果1.運(yùn)行結(jié)果2.可視化結(jié)果
//本文作者
王豪:行路難,多歧路,今安在,埋頭苦改bug會(huì)有時(shí),直到bug改完才吃飯。
//閱讀文本大概需要 5 分鐘。
一、前言
作為一個(gè)程序員,筆記本電腦是必不可少的,我這里對(duì)京東上的前2頁(yè)的筆記本的好評(píng)論數(shù),價(jià)格,店鋪等信息進(jìn)行爬取,并做一個(gè)可視化,根據(jù)可視化的圖,大家可以清晰的做出預(yù)測(cè),方便大家購(gòu)買劃算的電腦。當(dāng)然,我這里前2頁(yè)的數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的,如果大家想要預(yù)測(cè)的更精準(zhǔn)一些,可以改一下數(shù)字,獲取更多頁(yè)面的數(shù)據(jù),這樣,預(yù)測(cè)結(jié)果會(huì)更精確。
二、知識(shí)要求
會(huì)抓包分析
三、過(guò)程分析
1.觀察主頁(yè)面和每個(gè)電腦界面的網(wǎng)址
(1)觀察具體界面的網(wǎng)址,我們可以猜測(cè),具體每個(gè)界面都有一個(gè)id,通過(guò)構(gòu)造網(wǎng)址https://item.jd.com/【id】.html,就可以得到具體每個(gè)界面的網(wǎng)址。
(2)觀察主界面的網(wǎng)址,我們發(fā)現(xiàn)page=的屬性值就是具體的頁(yè)碼數(shù),通過(guò)構(gòu)造page的值,我們可以實(shí)現(xiàn)自動(dòng)翻頁(yè)爬取信息。對(duì)主界面網(wǎng)址一些不必要的信息剔除,最后得到主界面翻頁(yè)的網(wǎng)址規(guī)律https://list.jd.com/list.html?cat=670,671,672&page=【頁(yè)碼數(shù)】
同過(guò)以上的分析,我們可以看見(jiàn),獲取信息的關(guān)鍵就是每個(gè)電腦的具體id代號(hào),接下來(lái),我們的任務(wù)就是要找到每個(gè)電腦的id。
2.尋找每個(gè)電腦的id
(1)首先,看看網(wǎng)頁(yè)源代碼中是否會(huì)有每個(gè)電腦的id
在這里插入圖片描述我們?cè)龠M(jìn)入到剛剛搜索的哪個(gè)電腦名稱的具體界面,發(fā)現(xiàn),確實(shí)是他的id
(3)根據(jù)id附件的一些屬性值,唯一確定所有電腦id
根據(jù)class="gl-i-wrap j-sku-item"屬性值定位,發(fā)現(xiàn),唯一確定60個(gè)id,數(shù)了一下界面上的電腦,一頁(yè)確實(shí)是60個(gè)電腦,所以,電腦的id獲取到了。
(4)同理,根據(jù)<div class="p-name">屬性值獲取具體每個(gè)電腦的網(wǎng)址和電腦名,這樣我們連具體每個(gè)電腦的網(wǎng)址都不用構(gòu)造了,直接可以獲取。
3.找到存放電腦的價(jià)格和評(píng)論數(shù)的信息
(1)通過(guò)到網(wǎng)頁(yè)源代碼中去找,發(fā)現(xiàn)完全找不到,所以,我猜測(cè)這些信息隱藏在js包中。fiddler抓包工具,進(jìn)行抓包分析。
可以看見(jiàn),這些信息確實(shí)是在js包里面,復(fù)制該js包的網(wǎng)址,然后分析。
(3)分析有如下結(jié)論:
這里,我也抓到了存放店鋪的js包,但是,這個(gè)js包的地址每次有一部分是隨機(jī)生成的,所以,獲取不到每臺(tái)的電腦的店鋪名。但是,我有每臺(tái)電腦的具體網(wǎng)址,而該界面里面有該電腦的店鋪,所以,我可以訪問(wèn)每臺(tái)電腦的具體界面去獲取到店鋪消息。
4.爬取信息的思路
(1)先爬每頁(yè)的信息
四、urllib模塊爬取京東筆記本電腦的數(shù)據(jù)、并對(duì)其做一個(gè)可視化實(shí)戰(zhàn)
爬蟲(chóng)文件:(建議大家邊看邊敲一遍,更加有利于學(xué)習(xí))
五、可視化結(jié)果
1.運(yùn)行結(jié)果
2.可視化結(jié)果
評(píng)論數(shù)條形統(tǒng)計(jì)圖:
店鋪扇形統(tǒng)計(jì)圖:
可以看見(jiàn)聯(lián)想的電腦買的最好。
如果你覺(jué)得文章還不錯(cuò),請(qǐng)大家點(diǎn)贊分享下。你的肯定是我最大的鼓勵(lì)和支持。
總結(jié)
以上是生活随笔為你收集整理的Python爬取京东笔记本电脑,来看看那个牌子最棒的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 厉害了!不用一行代码,手把手教你制作漂亮
- 下一篇: 别人的20几岁 vs 互联网人的20几岁