日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

小白快速体验之爬虫抓取新浪热搜

發(fā)布時(shí)間:2024/1/8 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 小白快速体验之爬虫抓取新浪热搜 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

首先要有一些準(zhǔn)備工作,當(dāng)然前提是需要了解一下python的基礎(chǔ)知識。

安裝所需要的語言環(huán)境和工具:
1、python 我使用的是python3.6.5版本
2、三方庫 requests
安裝命令:pip3 install requests
3、 Beautiful Soup
安裝命令:pip3 install bs4
4、lxml
安裝命令:pip3 install lxml
5、Pycharm
一個(gè)python的IDE 官網(wǎng)地址:https://www.jetbrains.com/pycharm/
當(dāng)然也可以在終端直接編碼

上碼:
用pycharm創(chuàng)建一個(gè)python工程,然后創(chuàng)建一個(gè)python文件,比如 test.py,然后貼入下面代碼,之后運(yùn)行。

import requests from bs4 import BeautifulSoupmheaders = {"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9","Accept-Encoding": "gzip, deflate, br","Accept-Language": "en-US,en;q=0.9,zh-CN;q=0.8,zh-TW;q=0.7,zh;q=0.6","Cache-Control": "max-age=0","Connection": "keep-alive","Host": "s.weibo.com","Sec-Fetch-Mode": "navigate","Sec-Fetch-Site": "none","Sec-Fetch-User": "?1","Upgrade-Insecure-Requests": "1","User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36" }targetUrl = 'https://s.weibo.com/top/summary?cate=realtimehot'response = requests.get(targetUrl, headers=mheaders).text soup = BeautifulSoup(response, 'lxml') sort = 0 for hot_td in soup.find_all('td', class_="td-02"):# 標(biāo)題hotTitle = hot_td.find('a').stringsort += 1print('第%s位 %s ' % (sort, hotTitle))

輸入結(jié)果:

簡單說明:
1、requests是一個(gè)python的三方網(wǎng)絡(luò)庫,提供了簡潔的http get\post請求等方法。requests.get(targetUrl, headers=mheaders) 這里的get就代表的是get方式請求,設(shè)置了headers是為了把請求偽裝成瀏覽器請求,避免請求被攔截掉。

2、BeautifulSoup可以代替使用正則表達(dá)式去找到我們要抓取的html標(biāo)簽。soup.find_all(‘td’, class_=“td-02”) 就代表找到所有的class="td-02"的td標(biāo)簽。 在目標(biāo)網(wǎng)站查看網(wǎng)頁源代碼可以看到要抓取的內(nèi)容的樣子為:

<td class="td-02"><a href="/weibo?q=%23%E6%B8%85%E6%98%8E%E8%BF%BD%E6%80%9D%E5%AE%B6%E5%9B%BD%E6%B0%B8%E5%BF%B5%23&Refer=new_time" target="_blank">清明追思家國永念</a> </td> ...等等....

同理,hot_td.find(‘a(chǎn)’).string 就是在td標(biāo)簽中找到 a 標(biāo)簽取它包含的內(nèi)容,就是我們要抓取的熱搜內(nèi)容了。

最后:
抓取的庫還有很多種,真正的項(xiàng)目中還要考慮很多,比如如何抓取下一頁內(nèi)容、更換ip、數(shù)據(jù)入庫等等,這里就當(dāng)是自學(xué)了python之后,體驗(yàn)抓取的一個(gè)小demo。

今天是2020年4月4日,清明節(jié),全國人民在今天為抗擊疫情犧牲的英雄們默哀!不用多言,都在心里!祖國加油!

總結(jié)

以上是生活随笔為你收集整理的小白快速体验之爬虫抓取新浪热搜的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。