小白快速体验之爬虫抓取新浪热搜
首先要有一些準備工作,當然前提是需要了解一下python的基礎知識。
安裝所需要的語言環境和工具:
1、python 我使用的是python3.6.5版本
2、三方庫 requests
安裝命令:pip3 install requests
3、 Beautiful Soup
安裝命令:pip3 install bs4
4、lxml
安裝命令:pip3 install lxml
5、Pycharm
一個python的IDE 官網地址:https://www.jetbrains.com/pycharm/
當然也可以在終端直接編碼
上碼:
用pycharm創建一個python工程,然后創建一個python文件,比如 test.py,然后貼入下面代碼,之后運行。
輸入結果:
簡單說明:
1、requests是一個python的三方網絡庫,提供了簡潔的http get\post請求等方法。requests.get(targetUrl, headers=mheaders) 這里的get就代表的是get方式請求,設置了headers是為了把請求偽裝成瀏覽器請求,避免請求被攔截掉。
2、BeautifulSoup可以代替使用正則表達式去找到我們要抓取的html標簽。soup.find_all(‘td’, class_=“td-02”) 就代表找到所有的class="td-02"的td標簽。 在目標網站查看網頁源代碼可以看到要抓取的內容的樣子為:
<td class="td-02"><a href="/weibo?q=%23%E6%B8%85%E6%98%8E%E8%BF%BD%E6%80%9D%E5%AE%B6%E5%9B%BD%E6%B0%B8%E5%BF%B5%23&Refer=new_time" target="_blank">清明追思家國永念</a> </td> ...等等....同理,hot_td.find(‘a’).string 就是在td標簽中找到 a 標簽取它包含的內容,就是我們要抓取的熱搜內容了。
最后:
抓取的庫還有很多種,真正的項目中還要考慮很多,比如如何抓取下一頁內容、更換ip、數據入庫等等,這里就當是自學了python之后,體驗抓取的一個小demo。
今天是2020年4月4日,清明節,全國人民在今天為抗擊疫情犧牲的英雄們默哀!不用多言,都在心里!祖國加油!
總結
以上是生活随笔為你收集整理的小白快速体验之爬虫抓取新浪热搜的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 学画画软件app推荐_可以学画画的APP
- 下一篇: 音乐机器人特奥_意大利机器人特奥·特罗尼