當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

为什么要用python不用origin_Python告诉你为什么百度已死

發(fā)布時(shí)間：2023/12/20 python 52 豆豆

生活随笔收集整理的這篇文章主要介紹了为什么要用python不用origin_Python告诉你为什么百度已死小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Python3爬蟲百度一下，坑死你？

一、寫在前面

這個(gè)標(biāo)題是借用的路人甲大佬的一篇文章的標(biāo)題(百度一下，坑死你)，而且這次的爬蟲也是看了這篇文章后才寫出來(lái)的，感興趣的可以先看下這篇文章。

前段時(shí)間有篇文章《搜索引擎百度已死》引起了很多討論，而百度對(duì)此的回復(fù)是：百家號(hào)的內(nèi)容在百度搜索結(jié)果中不超過(guò)10%。但是這個(gè)10%是第一頁(yè)的10%還是所有數(shù)據(jù)的10%，我們不得而知，但是由于很多人都只會(huì)看第一頁(yè)的內(nèi)容，而如果這第一頁(yè)里有十分之一的內(nèi)容都來(lái)自于百家號(hào)，那搜索體驗(yàn)恐怕不怎么好吧？然后我這次寫的爬蟲就是把百度上面的熱搜事件都搜索一下，然后把搜索結(jié)果的第一頁(yè)上的標(biāo)題鏈接提取出來(lái)，最后對(duì)這些鏈接進(jìn)行一些簡(jiǎn)單的分析，看看百家號(hào)的內(nèi)容占比能有多少。

二、具體步驟

1.頁(yè)面分析

首先打開(kāi)網(wǎng)頁(yè)查看百度的熱點(diǎn)事件，頁(yè)面如下：

這次我主要對(duì)今日熱點(diǎn)、娛樂(lè)熱點(diǎn)、體育熱點(diǎn)進(jìn)行了爬取，每個(gè)熱點(diǎn)下面有50條熱點(diǎn)事件，然后對(duì)每個(gè)事件進(jìn)行搜索，比如第一條--馬云的福字：

可以看到搜索結(jié)果的第一頁(yè)上有很多標(biāo)題，然后對(duì)這些標(biāo)題的鏈接進(jìn)行爬取，再保存到一個(gè)txt文件里，最后對(duì)這些數(shù)據(jù)進(jìn)行分析。

2.主要代碼

(1)獲取真實(shí)鏈接

這些搜索結(jié)果頁(yè)面上的鏈接都是經(jīng)過(guò)加密的，如下圖：

所以我們爬取得到的鏈接都是http://www.baidu.com/link?url=VfA2jxmqJdYt1U-G0wHjWIXglVEi-WCxpa8aaMCeOzkqK-c5CgYngPiJT6_-kmWE3ePTHCpgYlX5oq9SQDJgEukKCY19o26JlS1pEIgnlupbw0Ss9Ro3gQjYVuJljdxyBPfiDUJhM9ODV_0mKnrUhESJ95Az1OnB6mMScmCXiUi這種，但是我們點(diǎn)進(jìn)去之后就能得到真實(shí)的鏈接https://www.baidu.com/s?tn=news&rtt=1&bsst=1&wd=%E9%A9%AC%E4%BA%91%E7%9A%84%E7%A6%8F%E5%AD%97&cl=2&origin=ps，那我們要怎么得到真實(shí)的鏈接呢？相關(guān)代碼如下：def?get_real_url(self,?fake_url):

#?獲取真實(shí)的鏈接

try:

res?=?requests.get(fake_url,?headers=self.headers)

real_url?=?res.url

except?Exception?as?e:

print(e)

(2)數(shù)據(jù)處理

這里我總共爬取了1051條鏈接，如下圖：

但是這樣的數(shù)據(jù)是明顯沒(méi)有辦法進(jìn)行分析的，所以需要進(jìn)行一下處理，比如將https://baijiahao.baidu.com/s?id=1624053575252859170&wfr=spider&for=pc變成baijiahao.baidu，相關(guān)代碼如下：href?=?"https://baijiahao.baidu.com/s?id=1624053575252859170&wfr=spider&for=pc"

match?=?re.match("(http[s]?://.+?[com,cn,net]/)",?href)

href?=?match.group()

href?=?href.replace('cn',?'com').replace('net',?'com')

href?=?href[href.index(':')?+?3:].rstrip('.com/')

print(href)

#?baijiahao.baidu

(3)數(shù)據(jù)分析

這里主要使用了matplotlib繪圖幫助我們分析數(shù)據(jù)。首先需要統(tǒng)計(jì)出各個(gè)網(wǎng)站出現(xiàn)的次數(shù)，然后進(jìn)行一個(gè)排序，得到排名前十的網(wǎng)站，結(jié)果如下(前面是網(wǎng)站，后面是出現(xiàn)次數(shù))：https://baijiahao.baidu.com/??188

https://www.baidu.com/??114

http://www.sohu.com/??60

https://news.china.com/??29

http://www.guangyuanol.cn/??27

http://image.baidu.com/?24

http://3g.163.com/??20

https://sports.qq.com/??19

https://www.iqiyi.com/?17

https://baike.baidu.com/??17

可以看到百家號(hào)出現(xiàn)的次數(shù)是最多的。然后進(jìn)行繪圖分析，這里主要是繪圖的代碼，因?yàn)槭褂玫氖前俜謹(jǐn)?shù)，所以在繪圖的時(shí)候會(huì)稍微麻煩一點(diǎn)：def?plot(self,?index_list,?value_list):

b?=?self.ax.barh(range(len(index_list)),?value_list,?color='blue',?height=0.8)

#?添加數(shù)據(jù)標(biāo)簽

for?rect?in?b:

w?=?rect.get_width()

self.ax.text(w,?rect.get_y()?+?rect.get_height()?/?2,?'{}%'.format(w),

ha='left',?va='center')

#?設(shè)置Y軸刻度線標(biāo)簽

self.ax.set_yticks(range(len(index_list)))

self.ax.set_yticklabels(index_list)

#?設(shè)置X軸刻度線

lst?=?["{}%".format(i)?for?i?in?range(0,?20,?2)]

self.ax.set_xticklabels(lst)

plt.subplots_adjust(left=0.25)

plt.xlabel("占比")

plt.ylabel("網(wǎng)站")

plt.rcParams['font.sans-serif']?=?['SimHei']

plt.savefig("bjh.jpg")

print("已保存為bjh.jpg！")

三、運(yùn)行結(jié)果

由于每個(gè)事件的搜索結(jié)果都是不同的，所以在解析網(wǎng)頁(yè)的時(shí)候可能會(huì)出錯(cuò)，然后就是請(qǐng)求頻率太高了會(huì)被ban掉，而且有時(shí)候UA會(huì)被識(shí)別出來(lái)然后就被ban掉了，運(yùn)行情況如下圖：

最后看一下繪制出來(lái)的圖片：

可以看到百家號(hào)的內(nèi)容占比達(dá)到了17%，而排在第二的也是百度自家的產(chǎn)品，內(nèi)容占比也達(dá)到了10%。當(dāng)然了，由于搜索的都是百度上的熱搜事件，所以得到的結(jié)果百度自家的內(nèi)容會(huì)多一點(diǎn)，但是光百家號(hào)的內(nèi)容就占了17%，是不是也太多了點(diǎn)呢？

總結(jié)

以上是生活随笔為你收集整理的为什么要用python不用origin_Python告诉你为什么百度已死的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：酷派7269_酷派7269（联通版）救砖
下一篇： python update skelet

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

为什么要用python不用origin_Python告诉你为什么百度已死

總結(jié)