爬取百度知道分类_百度指数爬虫|介绍篇
簡(jiǎn)單介紹
? ?前段時(shí)間幫別人寫了幾個(gè)爬蟲(chóng),其中有一個(gè)是爬取百度指數(shù)。絕大多數(shù)人應(yīng)該都知道這個(gè)東西,我在這里再說(shuō)明一下哈!
? ?百度指數(shù)是百度提供的可以查看人們每天搜索關(guān)鍵詞的次數(shù)的功能,具體長(zhǎng)下面這個(gè)樣子:
? ?它可以顯示每一天有多少人搜索指定的關(guān)鍵詞,而且可以自己選擇PC端(用電腦搜索)、移動(dòng)端,可以自己選擇不同的省份。而這次我就編寫了一個(gè)百度指數(shù)的爬蟲(chóng)
? ?那么爬百度指數(shù)可以干什么呢?我們舉兩個(gè)簡(jiǎn)單的例子:
(1) 首先是我選了Java、Python和C這三個(gè)常年占據(jù)排行榜TOP3的編程語(yǔ)言,來(lái)看看他們的百度搜索量長(zhǎng)什么樣子:
? ?我們可以看到Java和C都有一定的波動(dòng),但是Python卻是在以指數(shù)的速度增長(zhǎng)。對(duì)此我們不討論哪種編程語(yǔ)言最強(qiáng)之類的問(wèn)題,這不是我們本文要討論的重點(diǎn),放上這個(gè)圖只是為了把它作為一個(gè)說(shuō)明百度指數(shù)作用的小例子
(2) 第二個(gè)例子呢是我挑了幾名比較有名的女明星(對(duì)不起,直男知道的女明星少的可憐哈哈哈),來(lái)看看他們的百度指數(shù)如何。其實(shí)他們的百度指數(shù)也間接反映了他們的熱度:
? ?所以就很明顯看出來(lái)最開(kāi)始火的是劉濤和楊冪,之后那幾位相對(duì)年輕一點(diǎn)的也逐漸有了起色。(所以誰(shuí)能告訴我大冪冪2011年發(fā)生了什么哈哈哈哈)
01
需求
這次的需求呢大概分為以下幾點(diǎn):
1、用戶給出要爬取的關(guān)鍵詞,以Excel的形式提供
2、爬取每一天、每一個(gè)省份、每一個(gè)關(guān)鍵詞的PC端、移動(dòng)端、以及PC+移動(dòng)端的百度指數(shù)
3、爬取結(jié)果以Excel的形式保存
4、提供界面,不可以只在命令行運(yùn)行爬蟲(chóng)
02
演示示例
? 下面我簡(jiǎn)單介紹一下我寫的爬蟲(chóng)的樣子:
? 首先打開(kāi)程序,會(huì)看到下面的界面:
點(diǎn)擊"選擇文件",然后勾選要爬取的關(guān)鍵詞組成的Excel,文件目錄框會(huì)自動(dòng)顯示勾選的文件的路徑。下面的滾動(dòng)窗口會(huì)顯示獲得的要爬取的關(guān)鍵詞列表:
? ?點(diǎn)擊"開(kāi)始爬蟲(chóng)",程序就開(kāi)始工作了。
? 當(dāng)然,如果你想搜索百度指數(shù),那么你必須先登錄,而爬蟲(chóng)怎么讓自己看起來(lái)是登錄的狀態(tài)呢?就是用Cookie。所以這個(gè)爬蟲(chóng)也提供了"更新Cookie"的功能
? ?仔細(xì)看上面的滾動(dòng)窗口你就可以發(fā)現(xiàn),爬蟲(chóng)會(huì)先判斷關(guān)鍵詞是否被百度指數(shù)收錄,然后再將收錄的關(guān)鍵詞重新提取出來(lái),開(kāi)始爬取它們的搜索數(shù)量。當(dāng)關(guān)鍵詞數(shù)量過(guò)多的時(shí)候,爬蟲(chóng)會(huì)每10個(gè)關(guān)鍵詞保存成一個(gè)Excel
? ?可以看到每一個(gè)關(guān)鍵詞分3列,第一列是PC端,第二列是移動(dòng)端,最后一列是PC+移動(dòng)端。
? ?然后第一個(gè)sheet存放的是2011年以前的全國(guó)綜合數(shù)據(jù),之后每一個(gè)sheet會(huì)保存各個(gè)省市從2011年開(kāi)始到爬蟲(chóng)的前一天為止的每一天的搜索數(shù)量。
? ?通過(guò)上面簡(jiǎn)單的運(yùn)行結(jié)果就可以很簡(jiǎn)單看到一件有趣的事:可能2006年Angelababy、迪麗熱巴他們還沒(méi)出道,所以沒(méi)有人搜索他們。而那個(gè)時(shí)候劉濤還比較火,楊冪剛剛初出茅廬。然后后期我們可以用其他的方式對(duì)爬蟲(chóng)結(jié)果進(jìn)行分析,畫(huà)出來(lái)各種圖表。
? ?所以看到了吧,這個(gè)爬蟲(chóng),真的很好玩!
03
寫在最后
這個(gè)爬蟲(chóng)爬取的結(jié)果的分析價(jià)值比較大,而且涉及到的Python的知識(shí)也比較全面,不止包括爬蟲(chóng),像Excel操作、圖形界面、時(shí)間日期的操作都有涉及。所以我就想把這個(gè)爬蟲(chóng)拿出來(lái),分幾期介紹一下。希望大家喜歡!
其實(shí),爬蟲(chóng)還是挺有趣的
而且,不只是對(duì)計(jì)算機(jī)專業(yè)的人很有用
其他專業(yè),像金融、資源環(huán)境之類
都可以通過(guò)爬蟲(chóng)獲得很多數(shù)據(jù)
從而去分析數(shù)據(jù)中的規(guī)律,去做研究
拿出這個(gè)爬蟲(chóng)和大家分享
希望對(duì)有需要的小伙伴有幫助
【END】
長(zhǎng)
按
關(guān)
注
程序員的小迷弟
ID : 程序員的小迷弟
留言區(qū)
總結(jié)
以上是生活随笔為你收集整理的爬取百度知道分类_百度指数爬虫|介绍篇的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: python向数据库写入数据_如何用Py
- 下一篇: javawhile语句的用法例子_Pyt