當前位置：首頁 > 编程语言 > python >内容正文

python

Python 网络爬虫笔记5 -- Beautiful Soup库实战

發布時間：2025/3/12 python 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python 网络爬虫笔记5 -- Beautiful Soup库实战小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Python 網絡爬蟲筆記5 – Beautiful Soup庫實戰

Python 網絡爬蟲系列筆記是筆者在學習嵩天老師的《Python網絡爬蟲與信息提取》課程及筆者實踐網絡爬蟲的筆記。

課程鏈接：Python網絡爬蟲與信息提取
參考文檔：
Requests 官方文檔（英文）
Requests 官方文檔（中文）
Beautiful Soup 官方文檔
re 官方文檔
Scrapy 官方文檔（英文）
Scrapy 官方文檔（中文）

中國大學排名定向爬蟲

軟科中國大學排名：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html

import requests from bs4 import BeautifulSoup import bs4def get_html_text(url):"""從網絡上獲取大學排名網頁內容"""try:r = requests.get(url, timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return ""def fill_univ_list(univ_list, html):"""提取網頁內容中的信息（大學排名表）到合適的數據結構"""soup = BeautifulSoup(html, "html.parser")# 分析網頁源代碼，確定檢索的內容for tr in soup.find('tbody').children:if isinstance(tr, bs4.element.Tag):tds = tr('td')univ_list.append([tds[0].string, tds[1].string, tds[3].string])def print_univ_list(univ_list, num):"""輸出結果，即大學排名表"""# 格式化輸出，使用中文字符填充空白實現居中對齊template = "{0:^10}\t{1:{3}^10}\t{2:^10}"print(template.format("排名", "學校名稱", "總分", chr(12288)))for i in range(num):u = univ_list[i]print(template.format(u[0], u[1], u[2], chr(12288)))def main():"""輸入大學排名的 url，得到排名表"""univ_info = []url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html'html = get_html_text(url)fill_univ_list(univ_info, html)print_univ_list(univ_info, 20) # 20 univsif __name__ == '__main__':print('running crawl_ranking')main()

與50位技術專家面對面20年技術見證，附贈技術全景圖

總結

以上是生活随笔為你收集整理的Python 网络爬虫笔记5 -- Beautiful Soup库实战的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Python 网络爬虫笔记4 -- 信息
下一篇： Python 网络爬虫笔记6 -- 正则