日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬取中大官网(一)

發布時間:2025/4/16 编程问答 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬取中大官网(一) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

打開中大官網網頁,開始進行爬蟲。
想要爬取新聞的鏈接。


但是用下面的代碼的時候出現了問題了。

from urllib.request import urlopen from bs4 import BeautifulSoupif __name__ == '__main__':url = 'http://www.sysu.edu.cn/2012/cn/index.htm'htmlObj = urlopen(url)soup = BeautifulSoup(htmlObj.read(), 'lxml')newslist01 = soup.find('div', {'id': 'newslist01'})print(newslist01)lis = newslist01.find_all('li')for li in lis:print(li.get_text())

我去查,是不是動態網頁,但是卻發現,在鏈接之后,學校網頁跟我本地的主機就再也沒有了交互的過程。

  • 可以看出,這其實不是一個動態網頁。
    那究竟是為什么呢?

有點奇怪,但是我發現了下面這個地方

  • 我發現這有意思了,雖然我對前端的知識了解有限。這個開頭有點像那個html的開頭的地方。

  • 我就接著去查開始的時候這個網站跟我發過了什么包?

發現下面這個包,覺得有意思。

我想,可能就是在訪問學校官網的服務器的同時,會向學校的這個服務器去發送請求,讓這個服務器給本地發當前最新的新聞信息。

想想也覺得這個結構還是很靠譜的。畢竟,這樣,就單獨把這個服務器交給管新聞的有關部分去訪問就好了。這樣,對于整體的分工會更加明確。然后對于這個新聞的更新也會比較及時..吧?

所以,在檢查了那個包之后【檢查包的方法,我在一個介紹怎么用Chrome的博文中介紹了。建議爬蟲先學下怎么用這個, 點擊可以訪問】

然后改成下面的代碼:

from urllib.request import urlopen from bs4 import BeautifulSoupif __name__ == '__main__':url = 'http://news2.sysu.edu.cn/news03/mainsysunews2.htm?new=22808'htmlObj = urlopen(url)soup = BeautifulSoup(htmlObj.read(), 'lxml')lis = soup.find_all('li')for li in lis:print(li.span.get_text())print(li.a['title'])print(li.a.text)

就可以了,輸出的結果是:

03-16 【中國社會科學網】“時代楷模——中山大學援疆援藏事跡報告會”在廣州舉行【中國社會科學網】“時代楷模——中山大... 03-16 【中國科學報 科學網】中山大學舉行援疆援藏事跡報告會【中國科學報 科學網】中山大學舉行援疆... 03-14 【新快報】全國政協委員、中山大學黨委書記陳春聲建議: 盡快解決外籍人員 參加事業單位養老保險問題 【新快報】全國政協委員、中山大學黨委書... 03-12 【羊城晚報】全國政協委員、中山大學黨委書記陳春聲:中大力爭讓80%本科畢業生繼續深造【羊城晚報】全國政協委員、中山大學黨委... 03-12 【羊城晚報】全國人大代表、中山大學校長羅俊:創新發展打造高教人才蓄水池引鳳留鳳【羊城晚報】全國人大代表、中山大學校長... 03-12 【南方都市報】中大到2021年穩居國內高校第一方陣,準備這樣干【南方都市報】中大到2021年穩居國內...

總結

以上是生活随笔為你收集整理的爬取中大官网(一)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。