日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

用Python爬网页需要了解什么背景知识

發布時間:2025/3/21 python 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 用Python爬网页需要了解什么背景知识 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在知乎上有一位同學提出的問題:用Python爬網頁需要了解什么背景知識,恰好我對爬蟲有所了解,所以昨天晚上做了回答,今天放到公眾號上面希望對大家有所幫助,如有幫助歡迎轉發。

文中涉及到一些教程鏈接在本篇文章無法打開,可以點擊閱讀原文查看我在知乎上的原回答,也歡迎大家給我的回答點贊。

要學會使用Python爬取網頁信息無外乎以下幾點內容:

1、要會Python
2、知道網頁信息如何呈現
3、了解網頁信息如何產生
4、學會如何提取網頁信息

第一步Python是工具,所以你必須熟練掌握它,要掌握到什么程度呢?如果你只想寫一寫簡單的爬蟲,不要炫技不考慮爬蟲效率,你只需要掌握:

  • 數據類型和變量

  • 字符串和編碼

  • 使用list和tuple

  • 條件判斷、循環

  • 使用dict和set

你甚至不需要掌握函數、異步、多線程、多進程,當然如果想要提高自己小爬蟲的爬蟲效率,提高數據的精確性,那么記住最好的方式是去系統的學習一遍Python,去哪兒學習?Python教程

假設你已經熟悉了最基礎的Python知識,那么進入第二步:知道網頁信息如何呈現?你首先要知道所需要抓取的數據是怎樣的呈現的,就像是你想要學做一幅畫,在開始之前你要知道這幅畫是用什么畫出來的,鉛筆還是水彩筆...等等,可能種類是多樣的,但是放到網頁信息來說這兒只有兩種呈現方式:
1、HTML (HTML 簡介)
2、JSON ?(JSON 簡介)
HTML是用來描述網頁的一種語言
JSON是一種輕量級的數據交換格式

假設你現在知道了數據是由HTML和JSON呈現出來的,那么我們緊接著第三步:數據怎么來?數據當然是從服務器反饋給你的,為什么要反饋給你?因為你發出了請求。

“Hi~ ,服務器我要這個資源”
“正在傳輸中...”
“已經收到HTML或者JSON格式的數據”

這是什么請求?要搞清楚這一點你需要了解一下http的基礎知識,更加精確來說你需要去了解GET和POST是什么,區別是什么。也許你可以看看這個:淺談HTTP中Get與Post的區別 - hyddd - 博客園

很高興你使用的是Python,那么你只需要去掌握好快速上手 - Requests 2.10.0 文檔,requests可以幫你模擬發出GET和POST請求,這真是太棒了。

飯菜已經備好,兩菜一湯美味佳肴,下面就是好好享受了。現在我們已經拿到了數據,我們需要在這些錯亂的數據中提取我們需要的數據,這時候我們有兩個選擇。

第一招:萬能鑰匙

Python正則表達式指南?,再大再亂的內容,哪怕是大海撈針,只要告訴我這個針的樣子我都能從茫茫大海中撈出來,強大的正則表達式是你提取數據的不二之選。

第二招:笑里藏刀

Beautiful Soup 4.2.0 文檔,或許我們有更好的選擇,我們把原始數據和我們想要的數據的樣子扔個這個Beautifulsoup,然后讓它幫我們去尋找,這也是一個不錯的方案,但是論靈活性,第二招還是略遜于第一招。

第三招:雙劍合璧

最厲害的招式莫過于結合第一招和第二招了,打破天下無敵手。

基礎知識我都會,可是我還是寫不了一個爬蟲啊!

客觀別急,這還沒完。

以下這些項目,你拿來學習學習練練手。
兩個教學項目你值得擁有:

  • 03. 豆瓣電影TOP250

  • 04. 另一種抓取方式

還不夠?這兒有很多:

  • 知乎--你需要這些:Python3.x爬蟲學習資料整理

  • 如何學習Python爬蟲[入門篇]? - 知乎專欄

  • 知乎--Python學習路徑及練手項目合集

總結

以上是生活随笔為你收集整理的用Python爬网页需要了解什么背景知识的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。