日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > asp.net >内容正文

asp.net

发现一款.NET Core开源爬虫神器:DotnetSpider

發(fā)布時間:2023/12/4 asp.net 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 发现一款.NET Core开源爬虫神器:DotnetSpider 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

沒有爬蟲就沒有互聯(lián)網(wǎng)!

爬蟲的意義在于采集大批量數(shù)據(jù),然后基于此進(jìn)行加工/分析,做更有意義的事情。谷歌,百度,今日頭條,天眼查都離不開爬蟲。

去開源中國和Github查詢C#的爬蟲項(xiàng)目,僅有幾個非常簡單或是幾年沒有更新的項(xiàng)目。

而單純性能上.NET對比JAVA,PYTHON并沒有處于弱勢,反而有開發(fā)上的優(yōu)勢(得益于世界上最強(qiáng)大的IDE)。爬蟲性能瓶頸大多是在并發(fā)下載(網(wǎng)速)、IP池,那么為什么.NET沒有一個強(qiáng)大的爬蟲框架呢?

說真的我不知道,可能爬蟲框架核心上比較簡單,也可能.NET的開發(fā)人員沒有別的語言的開發(fā)人員勤奮,或是.NET的開源氛圍沒有別的語言高。

所以,今天推薦一個.NET 爬蟲的開源項(xiàng)目:DotnetSpider

開源項(xiàng)目地址:
https://github.com/dotnetcore/DotnetSpider

免責(zé)申明:本框架如同 Python 下著名的 Scrapy 一樣只是為了幫助開發(fā)人員簡化開發(fā)流程、提高開發(fā)效率,請勿使用此框架做任何違法國家法律的事情。使用者所做任何事情也與本框架的作者無關(guān)。

設(shè)計(jì)圖

框架設(shè)計(jì)

參考的webmagic,所以整體架構(gòu)上沒有什么大的變化,設(shè)計(jì)圖如下(圖片是直接從webmagic上拿的)

  • Scheduler:負(fù)責(zé)URL的調(diào)度、去重,可以實(shí)現(xiàn)如Queue, PriorityQueueScheduler, RedisScheduler(可用于分布式)等等

  • Downloader: 負(fù)責(zé)下載HTML,可以實(shí)現(xiàn)如HttpDownloader, 瀏覽器的Downloader(WebDriver), FiddlerDownloader,本地文件Downloader等等

  • PageProcesser: 負(fù)責(zé)HTML解析、目標(biāo)URL的選擇

  • Pipeline: 負(fù)責(zé)數(shù)據(jù)的存儲, 已實(shí)現(xiàn)文件存儲, MySql存儲, MySqlFile存儲(腳本),MSSQL存儲,MongoDb存儲, 更多存儲期待您的貢獻(xiàn)

優(yōu)點(diǎn)

  • 可以使用Json定義爬蟲

  • 可以使用實(shí)體類+Attrbiute定義爬蟲

  • 自動創(chuàng)建數(shù)據(jù)庫、數(shù)據(jù)表

  • 支持 .NET CORE,可以跨平臺

  • 支持ADSL撥號換IP:如果所有爬蟲統(tǒng)一部署, 可以實(shí)現(xiàn)單臺機(jī)器同時運(yùn)行多個任務(wù)撥號互不影響、或者一個路由下面多個電腦下多個任務(wù)撥號互不影響

  • 支持自定義代理池

  • 有管理平臺

如果你也有好的開源項(xiàng)目,歡迎推薦!

微信號聯(lián)系:westbrook12000(ps:加好友請備注“開源”)

回復(fù)?【小程序】獲取15套小程序源碼【學(xué)習(xí)+實(shí)戰(zhàn)+賺錢】

回復(fù)?【關(guān)閉】學(xué)關(guān)閉微信朋友圈廣告

回復(fù)?【實(shí)戰(zhàn)】獲取20套實(shí)戰(zhàn)源碼

回復(fù)?【福利】獲取最新微信支付有獎勵

回復(fù)?【被刪】學(xué)查看你哪個好友刪除了你巧

回復(fù)?【訪客】學(xué)微信查看朋友圈訪客記錄

回復(fù)?【python】學(xué)微獲取全套0基礎(chǔ)Python知識手冊

還需要Pandownload?阿里云網(wǎng)盤來了(附注冊教程)


副業(yè)剛需,個人開發(fā)者如何通過小程序變現(xiàn)?已經(jīng)有朋友變現(xiàn)月入4k了!

總結(jié)

以上是生活随笔為你收集整理的发现一款.NET Core开源爬虫神器:DotnetSpider的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。