當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

8个最高效的Python爬虫框架，你用过几个？

發(fā)布時間：2024/7/23 python 34 豆豆

生活随笔收集整理的這篇文章主要介紹了 8个最高效的Python爬虫框架，你用过几个？小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

From：https://segmentfault.com/a/1190000015131017

1.Scrapy

Scrapy是一個為了爬取網(wǎng)站數(shù)據(jù)，提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架。可以應(yīng)用在包括數(shù)據(jù)挖掘，信息處理或存儲歷史數(shù)據(jù)等一系列的程序中。。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數(shù)據(jù)。

項目地址：https://scrapy.org/

2.PySpider

pyspider 是一個用python實現(xiàn)的功能強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)，能在瀏覽器界面上進(jìn)行腳本的編寫，功能的調(diào)度和爬取結(jié)果的實時查看，后端使用常用的數(shù)據(jù)庫進(jìn)行爬取結(jié)果的存儲，還能定時設(shè)置任務(wù)與任務(wù)優(yōu)先級等。

項目地址：https://github.com/binux/pysp...

3.Crawley

Crawley可以高速爬取對應(yīng)網(wǎng)站的內(nèi)容，支持關(guān)系和非關(guān)系數(shù)據(jù)庫，數(shù)據(jù)可以導(dǎo)出為JSON、XML等。

項目地址：http://project.crawley-cloud....

4.Portia

Portia是一個開源可視化爬蟲工具，可讓您在不需要任何編程知識的情況下爬取網(wǎng)站！簡單地注釋您感興趣的頁面，Portia將創(chuàng)建一個蜘蛛來從類似的頁面提取數(shù)據(jù)。

項目地址：https://github.com/scrapinghu...

5.Newspaper

Newspaper可以用來提取新聞、文章和內(nèi)容分析。使用多線程，支持10多種語言等。

項目地址：https://github.com/codelucas/...

6.Beautiful Soup

Beautiful Soup 是一個可以從HTML或XML文件中提取數(shù)據(jù)的Python庫.它能夠通過你喜歡的轉(zhuǎn)換器實現(xiàn)慣用的文檔導(dǎo)航,查找,修改文檔的方式.Beautiful Soup會幫你節(jié)省數(shù)小時甚至數(shù)天的工作時間。

項目地址：https://www.crummy.com/softwa...

7.Grab

Grab是一個用于構(gòu)建Web刮板的Python框架。借助Grab，您可以構(gòu)建各種復(fù)雜的網(wǎng)頁抓取工具，從簡單的5行腳本到處理數(shù)百萬個網(wǎng)頁的復(fù)雜異步網(wǎng)站抓取工具。Grab提供一個API用于執(zhí)行網(wǎng)絡(luò)請求和處理接收到的內(nèi)容，例如與HTML文檔的DOM樹進(jìn)行交互。

項目地址：http://docs.grablib.org/en/la...

8.Cola

Cola是一個分布式的爬蟲框架，對于用戶來說，只需編寫幾個特定的函數(shù)，而無需關(guān)注分布式運行的細(xì)節(jié)。任務(wù)會自動分配到多臺機(jī)器上，整個過程對用戶是透明的。

項目地址：https://github.com/chineking/...

本文作者：雁橫
閱讀原文
本文為云棲社區(qū)博主原創(chuàng)內(nèi)容，轉(zhuǎn)載請聯(lián)系原作者。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯，堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的8个最高效的Python爬虫框架，你用过几个？的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。