日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

golang幽灵蛛(pholcus)(一)

發(fā)布時(shí)間:2023/12/29 综合教程 52 生活家
生活随笔 收集整理的這篇文章主要介紹了 golang幽灵蛛(pholcus)(一) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

最近開始重拾golang語言的原因

golang語言c語言的運(yùn)行速度,Python的開發(fā)效率。

tensorflow支持golang了,預(yù)估國內(nèi)會(huì)有一些人開發(fā)深度學(xué)習(xí)軟件了,會(huì)火一把,估計(jì)Google親爹應(yīng)該不會(huì)拋棄它了。

gota快要支持日期時(shí)間型了,可以實(shí)現(xiàn)數(shù)據(jù)清洗了。

還有一些數(shù)據(jù)挖掘的包,我還沒用過,但是慢慢的會(huì)穩(wěn)定。

幽靈蛛(pholcus)一套穩(wěn)定的爬蟲架構(gòu),支持分布式。

還差可視化包了,有誰知道好的包求推薦????????????????????????

下面步入正題,幽靈蛛入門:

怎么運(yùn)行,我給大家截圖一下我自己的文件結(jié)構(gòu)吧,讓我詳細(xì)說 我也說不清楚:

golang項(xiàng)目中最主要的就是src文件夾了,這個(gè)文件夾是自動(dòng)創(chuàng)建的,src上gopath里的。其中pholcus文件夾我是直接從github上下載的。

github.com文件夾截圖如下:

頁面解析文件都放在pholcus_lib下,如果你想自己寫爬蟲,也是維護(hù)到這個(gè)文件夾下。

main.go文件是從example_main.go改的。編譯并運(yùn)行mai.go文件。瀏覽器自動(dòng)彈出一下界面,按照截圖進(jìn)行設(shè)置,點(diǎn)擊開啟:

進(jìn)入爬蟲任務(wù)頁面,按紅框設(shè)置,分批輸出限制100是為了可以很快的看到輸出是啥樣子的。

運(yùn)行l(wèi)og:

可以暫定和停止。

文本輸出文件在文件夾E:projectgoprojectgolearnsrcpholcuspholcus_pkg ext_out中,如果停止后想再次進(jìn)行啟動(dòng)進(jìn)行爬取 需要先刪除history:E:projectgoprojectgolearnsrcpholcuspholcus_pkghistory (也可以通過設(shè)置“集成并保存成功記錄為False”)

在頁面解析文件的go文件中,可以直接進(jìn)行print測(cè)試,如下圖:當(dāng)然這種測(cè)試太麻煩了,還要啟動(dòng)瀏覽器啥的,但是目前還沒找到其他的測(cè)試方式 先這么著 ,我再去探索一下,如果哪位朋友知道,請(qǐng)賜教????????????????????

下面我們來看看輸出的結(jié)果形式:

第5行的內(nèi)容是空,這證明頁面解析沒有解析出“內(nèi)容”值,可能是頁面改版了,以前的元素不存在了,

csv文件,第一行是列名,對(duì)應(yīng)people.go文件中的以下代碼

當(dāng)前鏈接,上級(jí)鏈接,下載時(shí)間 應(yīng)該是系統(tǒng)自動(dòng)添加的。

這是目前學(xué)習(xí)到的只是,雜亂無章。

總結(jié)

以上是生活随笔為你收集整理的golang幽灵蛛(pholcus)(一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。