日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

浅谈爬虫 《一》 ===python

發(fā)布時間:2023/12/18 python 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 浅谈爬虫 《一》 ===python 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

淺談爬蟲 《一》 ===python

?‘’正文之前先啰嗦一下,準確來說,在下還只是一個剛?cè)腴TIT世界的菜鳥,工作近兩年了,之前做前端的時候就想寫博客來著,現(xiàn)在都轉(zhuǎn)做python了,如果還不開始寫點什么,估計時間都不會原諒這么懶散的我了……

閑話到此,下面說正事兒——首先來個爬蟲簡介

??咋一聽挺神秘的樣子,簡單來講爬蟲就是從網(wǎng)絡獲取資源,比如你想知道淘寶上的女裝什么顏色的銷量好,或者哪一款零食比較有賺頭兒…… ??在說現(xiàn)在流行的人工智能,其實所謂的人工智能也就是足夠的數(shù)據(jù)支撐,以及數(shù)據(jù)標記等等,使機器可以對足夠多的場景作出反應……以上純屬個人觀點,如有不對請指正

這次是真的講正題了,爬蟲分類,爬蟲原理,以及python代碼簡單實現(xiàn)

比較同用的說法:爬蟲分兩類

  • 通用爬蟲(也叫作搜索引擎爬蟲)
  • 聚焦爬蟲

總的來說都是網(wǎng)絡爬蟲!

????我們這里主要談論的是聚焦爬蟲:

爬蟲簡單來講分三步:

  • 發(fā)起請求
  • 得到反饋
  • 處理數(shù)據(jù)
  • 由于python2已經(jīng)快要停止更新了(大概2020年停止), 所以我們這里直接談論python3的方法

    # 導入需要的工具包 from urllib.request import Request,urlopen # 發(fā)起請求(以請求百度為例) request = Request('http://www.baidu.com') # 得到反饋 response = urlopen(request) # 獲取數(shù)據(jù)流 data = response.read() # 數(shù)據(jù)打印并且轉(zhuǎn)碼為 UTF-8 print(data.decode("utf-8"))
    打印結(jié)果(簡略)
    <!DOCTYPE html> <!--STATUS OK--> <html> <head> ………… <title>百度一下,你就知道</title> …………

    俗話說越是簡單的越南學習,在爬蟲這里就體現(xiàn)出來了, 上面的代碼看起來簡單,理解起來也沒難度,但是不實用,只要網(wǎng)站稍做防范(反爬蟲),就只能傻傻發(fā)呆了……,如果您打算從事爬蟲工作那么發(fā)爬蟲將是您工作生涯的中心!

    下面介紹一個簡單的反爬蟲的例子:

    from urllib.request import Request,urlopen # 請求頭信息,偽裝成瀏覽器訪問 ua_header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"} request = Request("http://note.youdao.com/iyoudao/?p=2411",headers=ua_header) #urlopen()函數(shù),url是必須要傳入的,data如果傳入就是POST請求,如果不傳就是GETT請求 response = urlopen(request) #到服務器返回的數(shù)據(jù),讀取里面的全部內(nèi)容 response_data = response.read() #打印返回的數(shù)據(jù) print(response_data.decode("utf-8"))

    只在請求頭(ua_header)里面添加(User-Agent)只是最簡單的偽裝反爬,更多的反爬蟲的方式包括但不限于cookie,session,代理等等。反爬方式有待探究,下次討論簡單代理以及爬蟲的其他庫

    ?


    轉(zhuǎn)載于:https://www.cnblogs.com/LoongitArt/p/9398466.html

    總結(jié)

    以上是生活随笔為你收集整理的浅谈爬虫 《一》 ===python的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。