日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python 爬虫代码_Python 你见过三行代码的爬虫吗

發(fā)布時(shí)間:2025/3/12 python 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python 爬虫代码_Python 你见过三行代码的爬虫吗 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Python 使用Lassie庫,僅編寫三行代碼就能爬取靜態(tài)頁面上的圖片和視頻。Python實(shí)戰(zhàn)教程每次講爬蟲的時(shí)候都會從“發(fā)送請求” 開始講,講到解析頁面的時(shí)候可能大部分讀者都會卡住,因?yàn)檫@部分確實(shí)需要一點(diǎn)XPATH或者CSS選擇器的前置知識。那么有沒有不需要這么復(fù)雜的操作就能把頁面信息讀取出來的方法呢?

答案是:有。

Lassie 是一個(gè)超簡單的頁面信息檢索工具,它能夠通過幾行代碼就獲取到頁面上的靜態(tài)信息,比如:頁面描述、視頻鏈接、頁面標(biāo)題,頁面關(guān)鍵詞、圖像鏈接等等。

為什么超簡單?感受一下:

import lassie data = lassie.fetch('https://www.zhihu.com') print(data) 你只要fetch一下頁面,就能得到以下的運(yùn)行結(jié)果(輸出為字典):(base) F:push20191112>python test.py{'images': [{'src': 'https://static.zhihu.com/static/favicon.ico', 'type': 'favicon'}], 'videos': [], 'description': '有問題,上知乎。知乎,可信賴的問答社區(qū),以讓每個(gè)人高效獲得可信賴的解答為使命。知乎憑借認(rèn)真、專業(yè)和友善的社區(qū)氛圍,結(jié)構(gòu)化、易獲得的優(yōu)質(zhì)內(nèi)容,基于問答的內(nèi)容生產(chǎn)方式和獨(dú)特的社區(qū)機(jī)制,吸引、聚集了各行各業(yè)中大量的親歷者、內(nèi)行人、領(lǐng)域?qū)<摇㈩I(lǐng)域愛好者,將高質(zhì)量的內(nèi)容透過人的節(jié)點(diǎn)來成規(guī)模地生產(chǎn)和分享。用戶通過問答等交流方式建立信任和連接,打造和提升個(gè)人影響力,并發(fā)現(xiàn)、獲得新機(jī)會。', 'locale': 'zh_CN', 'url': 'https://www.zhihu.com', 'title': '知乎 - 有問題,上知乎', 'status_code': 200}

1.安裝

如果你還沒有安裝Python,推薦閱讀這篇文章:Python安裝。

安裝完成后,請打開你的CMD/Terminal(終端)輸入以下命令:

pip install lassie

即可成功安裝lassie.

2.使用

現(xiàn)在,用這個(gè)工具爬取我們上篇文章的圖片鏈接吧!

import lassie data = lassie.fetch('https://pythondict.com/ai/python-suicide-detect-svm/') print(data['images'])

結(jié)果:

[{'src': 'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'secure_src': 'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'type': 'og:image'}, {'src': 'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'type': 'twitter:image'}, {'src': 'https://pythondict.com/wp-content/uploads/2019/07/2019073115192114.jpg', 'type': 'favicon'}]

當(dāng)然,我們還可以用列表解析式,把所有鏈接放到一個(gè)數(shù)組里:

print([i['src'] for i in data['images']])

結(jié)果:

['https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'https://pythondict.com/wp-content/uploads/2019/11/2019111013222864.png', 'https://pythondict.com/wp-content/uploads/2019/07/2019073115192114.jpg']

怎么樣,是不是這個(gè)工具拿來爬靜態(tài)頁面實(shí)在太方便了!唯一的缺點(diǎn)就是它無法爬取頁面中詳細(xì)的文本內(nèi)容,僅僅只能用來提取圖片、視頻和頁面相關(guān)的信息,如果你的爬蟲是只需要爬取靜態(tài)頁面上的圖片和視頻,那這個(gè)庫簡直是神器啊。

如果你喜歡今天的Python 教程,請持續(xù)關(guān)注Python實(shí)用寶典,如果對你有幫助,麻煩在下面點(diǎn)一個(gè)贊/在看哦

有任何問題都可以在下方留言區(qū)留言,我們會耐心解答的!

?Python實(shí)用寶典 (pythondict.com)
不只是一個(gè)寶典
歡迎關(guān)注公眾號:Python實(shí)用寶典

原文來自Python實(shí)用寶典:Python 你見過三行代碼的爬蟲嗎

總結(jié)

以上是生活随笔為你收集整理的python 爬虫代码_Python 你见过三行代码的爬虫吗的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。