日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python 爬虫餐饮行业 数据分析_Python爬取美团美食板块商家数据

發(fā)布時間:2023/12/20 python 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python 爬虫餐饮行业 数据分析_Python爬取美团美食板块商家数据 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

導語

利用Python簡單爬取美團美食板塊商家數(shù)據(jù)。。。

其實一開始我是想把美團的所有商家信息爬下來的,這樣就可以美其名曰百萬數(shù)據(jù)了。。。

然而相信很多爬過美團的朋友都發(fā)現(xiàn)了。。。

如果不進行一些小操作。。。

爬不了幾頁代碼就GG了。。。

后來想想我要這么多數(shù)據(jù)也沒什么用。。。

唯一對我有用的。。。

大概就是美食板塊了。。。

以后用到其他板塊的時候再另外爬就好了。。。

OK,Let's go!

主要思路

目的:

根據(jù)輸入的城市名,爬取該城市美團美食板塊所有商家的數(shù)據(jù)。數(shù)據(jù)包括:

店名、評分、評論數(shù)量、均價、地址,

并將這些數(shù)據(jù)存入Excel中。

最后嘗試對爬取到的數(shù)據(jù)做一個簡單的分析。

克服反爬蟲:

爬取每頁數(shù)據(jù)后,隨機停止一段時間后再爬下一頁;

每頁使用不同的cookie值。

具體原理:

沒用抓包軟件。。。

Chrome打開后看了下xhr。。。

發(fā)現(xiàn)直接有接口可以用。。。

給個cookie就能返回所需的數(shù)據(jù)了。。。

后來隨便點了幾個其他板塊的網(wǎng)頁。。。

發(fā)現(xiàn)也差不多是這個套路。。。

詳細的實現(xiàn)過程見源代碼。

開發(fā)工具

Python版本:3.5.4

相關模塊:

requests模塊;

win_unicode_console模塊;

openpyxl模塊;

以及一些Python自帶的模塊。

環(huán)境搭建

安裝Python并添加到環(huán)境變量,pip安裝需要的相關模塊即可。

使用演示

在cmd窗口運行MT_Cate_Spider.py文件即可。

簡單分析

其實在碼字的時候我臨時加的這個部分。。。

原因很簡單。。。

我想強調爬蟲和數(shù)據(jù)分析結合的重要性。。。

數(shù)據(jù)不多,懶得寫代碼分析了。。。

利用Excel的數(shù)據(jù)分析功能簡單分析一波吧~~~

用的上海地區(qū)的數(shù)據(jù)。

首先當然是按照評分排個序,然后做成柱狀圖:

然后是評論數(shù)量排個序,做成柱狀圖:

然后再做點其他有趣的圖案:

OK,That's all!

更多

如果有需要,我會寫一個爬取美團所有商家信息的腳本,因為就如之前所說。。。

貌似都有直接可以用的接口。。。

所以還算比較簡單。。。

只要弄到足夠多的cookie值就好了。。。

當然這個Flag應該是要到我實在沒東西寫或者懶得重新踩點的時候才會去實現(xiàn)了吧。。。

就這樣吧~~~

有興趣的朋友可以試著去抓其他板塊的數(shù)據(jù)。。。

貌似挺easy的。。。

小心別被封了就好了。。。

代碼截止2018-02-25測試無誤。

總結

以上是生活随笔為你收集整理的python 爬虫餐饮行业 数据分析_Python爬取美团美食板块商家数据的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。