日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

Python爬取京东笔记本电脑,来看看那个牌子最棒

發(fā)布時(shí)間:2024/9/15 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python爬取京东笔记本电脑,来看看那个牌子最棒 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

@圖片自制by小si

一、前言

二、知識(shí)要求三、過(guò)程分析1.觀察主頁(yè)面和每個(gè)電腦界面的網(wǎng)址2.尋找每個(gè)電腦的id3.找到存放電腦的價(jià)格和評(píng)論數(shù)的信息4.爬取信息的思路四、urllib模塊爬取京東筆記本電腦的數(shù)據(jù)、并對(duì)其做一個(gè)可視化實(shí)戰(zhàn)五、可視化結(jié)果1.運(yùn)行結(jié)果2.可視化結(jié)果

//

本文作者

王豪:行路難,多歧路,今安在,埋頭苦改bug會(huì)有時(shí),直到bug改完才吃飯。

//

閱讀文本大概需要 5 分鐘。

一、前言

作為一個(gè)程序員,筆記本電腦是必不可少的,我這里對(duì)京東上的前2頁(yè)的筆記本的好評(píng)論數(shù),價(jià)格,店鋪等信息進(jìn)行爬取,并做一個(gè)可視化,根據(jù)可視化的圖,大家可以清晰的做出預(yù)測(cè),方便大家購(gòu)買劃算的電腦。當(dāng)然,我這里前2頁(yè)的數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的,如果大家想要預(yù)測(cè)的更精準(zhǔn)一些,可以改一下數(shù)字,獲取更多頁(yè)面的數(shù)據(jù),這樣,預(yù)測(cè)結(jié)果會(huì)更精確。

二、知識(shí)要求

  • 會(huì)抓包分析

三、過(guò)程分析

1.觀察主頁(yè)面和每個(gè)電腦界面的網(wǎng)址


(1)觀察具體界面的網(wǎng)址,我們可以猜測(cè),具體每個(gè)界面都有一個(gè)id,通過(guò)構(gòu)造網(wǎng)址https://item.jd.com/【id】.html,就可以得到具體每個(gè)界面的網(wǎng)址。
(2)觀察主界面的網(wǎng)址,我們發(fā)現(xiàn)page=的屬性值就是具體的頁(yè)碼數(shù),通過(guò)構(gòu)造page的值,我們可以實(shí)現(xiàn)自動(dòng)翻頁(yè)爬取信息。對(duì)主界面網(wǎng)址一些不必要的信息剔除,最后得到主界面翻頁(yè)的網(wǎng)址規(guī)律https://list.jd.com/list.html?cat=670,671,672&page=【頁(yè)碼數(shù)】

同過(guò)以上的分析,我們可以看見(jiàn),獲取信息的關(guān)鍵就是每個(gè)電腦的具體id代號(hào),接下來(lái),我們的任務(wù)就是要找到每個(gè)電腦的id。

2.尋找每個(gè)電腦的id

(1)首先,看看網(wǎng)頁(yè)源代碼中是否會(huì)有每個(gè)電腦的id

在這里插入圖片描述

我們?cè)龠M(jìn)入到剛剛搜索的哪個(gè)電腦名稱的具體界面,發(fā)現(xiàn),確實(shí)是他的id

(3)根據(jù)id附件的一些屬性值,唯一確定所有電腦id
根據(jù)class="gl-i-wrap j-sku-item"屬性值定位,發(fā)現(xiàn),唯一確定60個(gè)id,數(shù)了一下界面上的電腦,一頁(yè)確實(shí)是60個(gè)電腦,所以,電腦的id獲取到了。

(4)同理,根據(jù)<div class="p-name">屬性值獲取具體每個(gè)電腦的網(wǎng)址和電腦名,這樣我們連具體每個(gè)電腦的網(wǎng)址都不用構(gòu)造了,直接可以獲取。

3.找到存放電腦的價(jià)格和評(píng)論數(shù)的信息

(1)通過(guò)到網(wǎng)頁(yè)源代碼中去找,發(fā)現(xiàn)完全找不到,所以,我猜測(cè)這些信息隱藏在js包中。fiddler抓包工具,進(jìn)行抓包分析。



可以看見(jiàn),這些信息確實(shí)是在js包里面,復(fù)制該js包的網(wǎng)址,然后分析。
(3)分析有如下結(jié)論:

這里,我也抓到了存放店鋪的js包,但是,這個(gè)js包的地址每次有一部分是隨機(jī)生成的,所以,獲取不到每臺(tái)的電腦的店鋪名。但是,我有每臺(tái)電腦的具體網(wǎng)址,而該界面里面有該電腦的店鋪,所以,我可以訪問(wèn)每臺(tái)電腦的具體界面去獲取到店鋪消息。

4.爬取信息的思路

(1)先爬每頁(yè)的信息

四、urllib模塊爬取京東筆記本電腦的數(shù)據(jù)、并對(duì)其做一個(gè)可視化實(shí)戰(zhàn)

爬蟲(chóng)文件:(建議大家邊看邊敲一遍,更加有利于學(xué)習(xí))

五、可視化結(jié)果

1.運(yùn)行結(jié)果

2.可視化結(jié)果

評(píng)論數(shù)條形統(tǒng)計(jì)圖:


店鋪扇形統(tǒng)計(jì)圖:

可以看見(jiàn)聯(lián)想的電腦買的最好。
如果你覺(jué)得文章還不錯(cuò),請(qǐng)大家點(diǎn)贊分享下。你的肯定是我最大的鼓勵(lì)和支持。

總結(jié)

以上是生活随笔為你收集整理的Python爬取京东笔记本电脑,来看看那个牌子最棒的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。