如何采集企业信息公示系统
? ? ? ?全國(guó)企業(yè)信息公示系統(tǒng)是企業(yè)、個(gè)體在工商局備案信息的公示平臺(tái)。平臺(tái)的反爬蟲(chóng)策略很?chē)?yán)格,下面介紹一下如何通過(guò)使用ForeSpider爬蟲(chóng)軟件批量采集企業(yè)信息公示系統(tǒng)。
? ? ? ?一.省份情況分類(lèi)
? ? ? ?通過(guò)逐一采集全國(guó)31個(gè)省份發(fā)現(xiàn),各省份的狀況如下。
1.通過(guò)Cookie、jsessionid、日期與驗(yàn)證機(jī)制關(guān)聯(lián)的省份:
省份:北京、天津、江蘇、浙江、陜西、內(nèi)蒙古、重慶、新疆、河南、湖南、河北、陜西、吉林、黑龍江、上海、江西、安徽、山東、廣西、海南、四川、貴州、云南、西藏、甘肅、寧夏、青海。
定制狀況:無(wú)需定制,可以直接采集。
2.動(dòng)態(tài)加密的省份:
省份:廣東。
定制狀況:需要定制,解決驗(yàn)證碼識(shí)別限時(shí)的問(wèn)題。
3.frame:
省份:福建、遼寧。
定制狀況:需要定制,動(dòng)態(tài)JS生成的驗(yàn)證機(jī)制需要進(jìn)一步解析。
4.密碼盤(pán)的驗(yàn)證機(jī)制:
省份:湖北。
定制狀況:可以實(shí)現(xiàn)手工識(shí)別采集,不需要定制。如果想實(shí)現(xiàn)機(jī)器識(shí)別需要自行解決驗(yàn)證碼問(wèn)題。
? ? ? ?二.下載安裝工具
? ? ? ?百度“ForeSpider”,可以下載。安裝后登錄,賬號(hào)密碼是在“前嗅”官網(wǎng)注冊(cè)時(shí)填寫(xiě)的。也可以不輸入賬號(hào)密碼直接登錄,但是不注冊(cè)是不能夠采集的,只可以進(jìn)行配置。
? ? ? ?三.測(cè)試過(guò)程
? ? ? ?以天津?yàn)槔?#xff0c;通過(guò)人工識(shí)別驗(yàn)證碼方式進(jìn)行測(cè)試。
1.配置企業(yè)名稱(chēng)的關(guān)鍵詞
2.配置模板一的鏈接抽取
3.配置模板二的鏈接抽取
4.配置模板二的鏈接腳本
5.配置模板三的鏈接抽取
6.配置模板四的數(shù)據(jù)抽取
7.驗(yàn)證碼人工識(shí)別
8.數(shù)據(jù)采集
9.數(shù)據(jù)瀏覽
? ? ? ?四.測(cè)試結(jié)果
? ? ? ?測(cè)試過(guò)程的驗(yàn)證碼識(shí)別采用了人工識(shí)別的方式,將測(cè)試過(guò)程分為驗(yàn)證碼識(shí)別和采集過(guò)程。
? ? ? ?1.驗(yàn)證碼識(shí)別
在一臺(tái)計(jì)算機(jī)上測(cè)試,由于涉及到Cookie驗(yàn)證,驗(yàn)證碼識(shí)別只能開(kāi)啟單線(xiàn)程。單線(xiàn)程人工識(shí)別20分鐘,識(shí)別480了個(gè)驗(yàn)證碼。
若需求方有多臺(tái)計(jì)算機(jī),識(shí)別過(guò)程可以多線(xiàn)程。加快識(shí)別速度。
? ? ? ?2.采集過(guò)程
采集過(guò)程啟用一臺(tái)計(jì)算機(jī),開(kāi)啟了10個(gè)線(xiàn)程。如果需求方的硬件配置較好,可以開(kāi)啟100個(gè)線(xiàn)程左右。
經(jīng)過(guò)采集,1000s內(nèi)采集到共6410個(gè)鏈接(與數(shù)據(jù)相關(guān)及無(wú)關(guān)的鏈接總數(shù)),2423條數(shù)據(jù)(每條數(shù)據(jù)對(duì)應(yīng)一個(gè)企業(yè)的信息)。
? ? ? ?即:在使用一臺(tái)計(jì)算機(jī),開(kāi)啟10個(gè)線(xiàn)程的情況下:
? ? ? ?1000秒--6410個(gè)鏈接--2423條數(shù)據(jù)
? ? ? ?1小時(shí)--23076個(gè)鏈接--8723條數(shù)據(jù)
? ? ? ?24小時(shí)--553824個(gè)鏈接--209347條數(shù)據(jù)
總結(jié)
以上是生活随笔為你收集整理的如何采集企业信息公示系统的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: RHCE认证考试时间是什么时候?
- 下一篇: locate: database too