當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬取中大官网（一）

發布時間：2025/4/16 编程问答 57 豆豆

生活随笔收集整理的這篇文章主要介紹了爬取中大官网（一）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

打開中大官網網頁，開始進行爬蟲。
想要爬取新聞的鏈接。

但是用下面的代碼的時候出現了問題了。

from urllib.request import urlopen from bs4 import BeautifulSoupif __name__ == '__main__':url = 'http://www.sysu.edu.cn/2012/cn/index.htm'htmlObj = urlopen(url)soup = BeautifulSoup(htmlObj.read(), 'lxml')newslist01 = soup.find('div', {'id': 'newslist01'})print(newslist01)lis = newslist01.find_all('li')for li in lis:print(li.get_text())

我去查，是不是動態網頁，但是卻發現，在鏈接之后，學校網頁跟我本地的主機就再也沒有了交互的過程。

可以看出，這其實不是一個動態網頁。
那究竟是為什么呢？

有點奇怪，但是我發現了下面這個地方

我發現這有意思了，雖然我對前端的知識了解有限。這個開頭有點像那個html的開頭的地方。
我就接著去查開始的時候這個網站跟我發過了什么包？

發現下面這個包，覺得有意思。

我想，可能就是在訪問學校官網的服務器的同時，會向學校的這個服務器去發送請求，讓這個服務器給本地發當前最新的新聞信息。

想想也覺得這個結構還是很靠譜的。畢竟，這樣，就單獨把這個服務器交給管新聞的有關部分去訪問就好了。這樣，對于整體的分工會更加明確。然后對于這個新聞的更新也會比較及時..吧？

所以，在檢查了那個包之后【檢查包的方法，我在一個介紹怎么用Chrome的博文中介紹了。建議爬蟲先學下怎么用這個，點擊可以訪問】

然后改成下面的代碼：

from urllib.request import urlopen from bs4 import BeautifulSoupif __name__ == '__main__':url = 'http://news2.sysu.edu.cn/news03/mainsysunews2.htm?new=22808'htmlObj = urlopen(url)soup = BeautifulSoup(htmlObj.read(), 'lxml')lis = soup.find_all('li')for li in lis:print(li.span.get_text())print(li.a['title'])print(li.a.text)

就可以了，輸出的結果是：

03-16 【中國社會科學網】“時代楷模——中山大學援疆援藏事跡報告會”在廣州舉行【中國社會科學網】“時代楷模——中山大... 03-16 【中國科學報科學網】中山大學舉行援疆援藏事跡報告會【中國科學報科學網】中山大學舉行援疆... 03-14 【新快報】全國政協委員、中山大學黨委書記陳春聲建議: 盡快解決外籍人員參加事業單位養老保險問題【新快報】全國政協委員、中山大學黨委書... 03-12 【羊城晚報】全國政協委員、中山大學黨委書記陳春聲：中大力爭讓80%本科畢業生繼續深造【羊城晚報】全國政協委員、中山大學黨委... 03-12 【羊城晚報】全國人大代表、中山大學校長羅俊：創新發展打造高教人才蓄水池引鳳留鳳【羊城晚報】全國人大代表、中山大學校長... 03-12 【南方都市報】中大到2021年穩居國內高校第一方陣，準備這樣干【南方都市報】中大到2021年穩居國內...

總結

以上是生活随笔為你收集整理的爬取中大官网（一）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： IDEA运行最简单的Java程序Hell
下一篇：【分布式】通过Numpy创建Dask.a

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

爬取中大官网（一）

總結