爬取中大官网(一)
打開中大官網網頁,開始進行爬蟲。
想要爬取新聞的鏈接。
但是用下面的代碼的時候出現了問題了。
我去查,是不是動態網頁,但是卻發現,在鏈接之后,學校網頁跟我本地的主機就再也沒有了交互的過程。
- 可以看出,這其實不是一個動態網頁。
那究竟是為什么呢?
有點奇怪,但是我發現了下面這個地方
我發現這有意思了,雖然我對前端的知識了解有限。這個開頭有點像那個html的開頭的地方。
我就接著去查開始的時候這個網站跟我發過了什么包?
發現下面這個包,覺得有意思。
我想,可能就是在訪問學校官網的服務器的同時,會向學校的這個服務器去發送請求,讓這個服務器給本地發當前最新的新聞信息。
想想也覺得這個結構還是很靠譜的。畢竟,這樣,就單獨把這個服務器交給管新聞的有關部分去訪問就好了。這樣,對于整體的分工會更加明確。然后對于這個新聞的更新也會比較及時..吧?
所以,在檢查了那個包之后【檢查包的方法,我在一個介紹怎么用Chrome的博文中介紹了。建議爬蟲先學下怎么用這個, 點擊可以訪問】
然后改成下面的代碼:
from urllib.request import urlopen from bs4 import BeautifulSoupif __name__ == '__main__':url = 'http://news2.sysu.edu.cn/news03/mainsysunews2.htm?new=22808'htmlObj = urlopen(url)soup = BeautifulSoup(htmlObj.read(), 'lxml')lis = soup.find_all('li')for li in lis:print(li.span.get_text())print(li.a['title'])print(li.a.text)就可以了,輸出的結果是:
03-16 【中國社會科學網】“時代楷模——中山大學援疆援藏事跡報告會”在廣州舉行【中國社會科學網】“時代楷模——中山大... 03-16 【中國科學報 科學網】中山大學舉行援疆援藏事跡報告會【中國科學報 科學網】中山大學舉行援疆... 03-14 【新快報】全國政協委員、中山大學黨委書記陳春聲建議: 盡快解決外籍人員 參加事業單位養老保險問題 【新快報】全國政協委員、中山大學黨委書... 03-12 【羊城晚報】全國政協委員、中山大學黨委書記陳春聲:中大力爭讓80%本科畢業生繼續深造【羊城晚報】全國政協委員、中山大學黨委... 03-12 【羊城晚報】全國人大代表、中山大學校長羅俊:創新發展打造高教人才蓄水池引鳳留鳳【羊城晚報】全國人大代表、中山大學校長... 03-12 【南方都市報】中大到2021年穩居國內高校第一方陣,準備這樣干【南方都市報】中大到2021年穩居國內...總結
- 上一篇: IDEA运行最简单的Java程序Hell
- 下一篇: Python爬虫,通过特定的函数来筛选标