日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > asp.net >内容正文

asp.net

.NET 图形化开源爬虫Hawk 3发布

發布時間:2023/12/4 asp.net 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 .NET 图形化开源爬虫Hawk 3发布 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


超級圖形化爬蟲Hawk已經發布兩年半時間了,2015年升級到第二版,收到上千條用戶反饋(tucao),100多個紅包,總共666塊五毛~一直想攢著這筆錢,去北境之王天通苑的龍德商場買最心愛的阿迪王!

啥,你不知道Hawk是什么?它是智能而強大的網絡數據采集工具,全圖形化無需編程,一些功能強大到作者自己都不會用(這是真的),下面的文章有更多的細節:

Hawk1:?如何從互聯網采集海量數據?租房,二手房,薪酬...

Hawk2:?120項優化: 超級爬蟲Hawk 2.0重磅發布!

背景故事:?設計爬蟲Hawk背后的故事

Hawk star已經突破1300, 開源地址如下,記得在全世界最大的同性交友網站上給沙漠君點個star~:


?Github.com/ferventdesert/Hawk

某天夜里,一位神秘人物突然加我微信,知道我是Hawk的設計者之后,二話不說就發了200塊紅包!在確認對方不是仙人跳之后。我趕緊給這位客戶老爺千恩萬謝,明天可以加雞腿了!

這位VIP客戶跟我語音聊了接近一個小時,在無數條對Hawk的贊美之后,話鋒一轉,說“你這Hawk用戶體驗好差,界面太丑了,就不能好好優化一下么?”

我說:好啊,你來提需求,我來改?我們一拍即合!這位神秘人物,就叫他升哥吧(可惜不是妹子啊)

從17年10月份開始,我們開始了你織布來我縫衣的模式(好哲♂學),升哥負責測試,用戶體驗,提需求;我來負責改代碼。寶刀未老的沙漠君竟然還能記得四五年前寫的C#代碼!平時工作太太太太忙了,只能抽周六日坐在馬桶上優化代碼,差點搞成前列腺炎!平日我們會在地鐵和公交上,通過微信討論各種體驗細節,畫風是這樣的:

image.png-517.5kB

這樣的聊天記錄少說上萬條,我們腦暴更好的體驗,更快的算法,摳每個交互細節,在有限的時間內盡可能打磨和優化Hawk這款產品。后來參與內測的同學越來越多,我也收到了更多的反饋。

時間過得好快,朝鮮改革開放了,杭州買房要搖號了,半年多瞬間過去了。經過無數個“死也不改版”,擁有多個重大功能更新,兩百多個體驗升級后,Hawk3總算千呼萬喚屎出來啦!

那Hawk3帶來哪些令客官老爺們吃驚的體驗呢?我們重點說明Hawk3強化的功能,已有的介紹可參考之前的文章哦。


1. 更智能的網頁采集器

輸入網址,點擊【手氣不錯】,Hawk就會自動將所有高價值的數據表提取出來,相比上一代,更是支持智能排序和自定義,動動鼠標,就能在多個結果間來回篩選,點擊確定就完成了!


手氣不錯不僅能列表,還能支持詳情頁,在鏈家頁面上隨便輸入一個信息,點手氣不錯,房產的詳細信息就都出來了!


網頁采集器不僅支持xpath,更能混合使用selector語法,搜索關鍵詞還能實現頁面自動定位跳轉高亮,智能地讓你想哭! 除了顯示html源碼,還能以瀏覽器模式預覽!

2. 更易用的數據清洗

Hawk最引以為傲的功能是:用戶可組裝靈活的數據清洗任務,先洗菜再切菜,最后扔鍋里爆炒,所見即所得。

Hawk3大幅度改進了用戶體驗,模仿播放器設計,你可以對任務的各個模塊靈活修改,快進后退!處理數據就像播放島國大片一樣流暢刺激!


可以將多個數據清洗任務互相調用,實現更復雜和高級的功能,新版提供了對子任務的更友好的配置界面,讓你像寫Python函數一樣實現子任務。Hawk調用Python實現自定義處理的功能也得到了增強,支持引入一部分第三方庫,處理數據更加靈活。

Hawk同樣大大強化了調試功能,能夠實時監控web請求數和頻次,分析任務中模塊的工作和異常,快速確定問題,再也不用擔心一臉懵逼找不到bug了!

3. 兩百多個微創新!

一款軟件,增加新功能不是重點,而是打磨核心功能,用無數個細節編織出的微創新。你會發現:

  • 以往需要手工輸入的文本框現在都支持下拉菜單自動提示

  • 能更容易地暫停和取消正在運行的任務

  • 錯誤彈窗更加人性化,支持拼音快速檢索模塊

4. 超快的導出Excel/數據庫

早期版本的Hawk,大數據導出Excel卡得讓男人沉默,女人流淚。優化后的Excel導出速度提升了15倍,百萬級數據都輕輕松松。

更何況,Hawk還支持了文件級數據庫Sqlite,千萬數據毫無壓力。完全不需要配置,再也不用擔心數據太多爆內存了!

5. 想自動化部署的客官有福了!

新的Hawk支持從Windows命令行模式執行,大概是下面的樣子:

cmd> HawkScheduler project.xml task_name

在Hawk圖形界面上設計工程,命令行輸入工程名和任務名,即可直接執行任務,速度更快更輕量,但記得用執行器把數據導出到數據庫或者文件里哦!

微軟的跨平臺戰略太不給力,讓Hawk支持Linux和Mac的成本實在太高了,所以目前依然只能在Windows上運行。由于更新較多,新的Hawk基本上不能支持以前的工程文件,好在爬蟲配置一遍也不是費事,對吧^-^


哎呀太多了寫不完,在使用過程中,你能慢慢發現這些細節和驚喜。

考慮到之前用戶的使用習慣,大部分改進都是平滑的,但早期工程已經不兼容。界面依然很工科癌。說界面丑的妹子歡迎給我們提意見~

通過閱讀文檔和視頻,研究教學工程,5分鐘就能上手使用,半小時就能成為老司機。你肯定迫不及待地想問我在哪里下載?點擊閱讀原文,即可到達項目主頁,那里有下載地址,文檔,視頻教程,以及你想要的全部資料!


由于時間極度緊張,可能視頻和文檔還有不完全之處,請關注“沙漠之鷹”微信公眾號,Hawk的消息會在第一時間推送給你~最后,如果使用中有任何問題和建議,歡迎加入QQ群546750531,或者在GitHub上發言答疑 ~

祝使用Hawk愉快!

原文地址: https://github.com/ferventdesert/Hawk


.NET社區新聞,深度好文,歡迎訪問公眾號文章匯總 http://www.csharpkit.com

總結

以上是生活随笔為你收集整理的.NET 图形化开源爬虫Hawk 3发布的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。