如何采集企业信息公示系统
? ? ? ?全國企業(yè)信息公示系統(tǒng)是企業(yè)、個(gè)體在工商局備案信息的公示平臺(tái)。平臺(tái)的反爬蟲策略很嚴(yán)格,下面介紹一下如何通過使用ForeSpider爬蟲軟件批量采集企業(yè)信息公示系統(tǒng)。
? ? ? ?一.省份情況分類
? ? ? ?通過逐一采集全國31個(gè)省份發(fā)現(xiàn),各省份的狀況如下。
1.通過Cookie、jsessionid、日期與驗(yàn)證機(jī)制關(guān)聯(lián)的省份:
省份:北京、天津、江蘇、浙江、陜西、內(nèi)蒙古、重慶、新疆、河南、湖南、河北、陜西、吉林、黑龍江、上海、江西、安徽、山東、廣西、海南、四川、貴州、云南、西藏、甘肅、寧夏、青海。
定制狀況:無需定制,可以直接采集。
2.動(dòng)態(tài)加密的省份:
省份:廣東。
定制狀況:需要定制,解決驗(yàn)證碼識(shí)別限時(shí)的問題。
3.frame:
省份:福建、遼寧。
定制狀況:需要定制,動(dòng)態(tài)JS生成的驗(yàn)證機(jī)制需要進(jìn)一步解析。
4.密碼盤的驗(yàn)證機(jī)制:
省份:湖北。
定制狀況:可以實(shí)現(xiàn)手工識(shí)別采集,不需要定制。如果想實(shí)現(xiàn)機(jī)器識(shí)別需要自行解決驗(yàn)證碼問題。
? ? ? ?二.下載安裝工具
? ? ? ?百度“ForeSpider”,可以下載。安裝后登錄,賬號(hào)密碼是在“前嗅”官網(wǎng)注冊(cè)時(shí)填寫的。也可以不輸入賬號(hào)密碼直接登錄,但是不注冊(cè)是不能夠采集的,只可以進(jìn)行配置。
? ? ? ?三.測試過程
? ? ? ?以天津?yàn)槔?#xff0c;通過人工識(shí)別驗(yàn)證碼方式進(jìn)行測試。
1.配置企業(yè)名稱的關(guān)鍵詞
2.配置模板一的鏈接抽取
3.配置模板二的鏈接抽取
4.配置模板二的鏈接腳本
5.配置模板三的鏈接抽取
6.配置模板四的數(shù)據(jù)抽取
7.驗(yàn)證碼人工識(shí)別
8.數(shù)據(jù)采集
9.數(shù)據(jù)瀏覽
? ? ? ?四.測試結(jié)果
? ? ? ?測試過程的驗(yàn)證碼識(shí)別采用了人工識(shí)別的方式,將測試過程分為驗(yàn)證碼識(shí)別和采集過程。
? ? ? ?1.驗(yàn)證碼識(shí)別
在一臺(tái)計(jì)算機(jī)上測試,由于涉及到Cookie驗(yàn)證,驗(yàn)證碼識(shí)別只能開啟單線程。單線程人工識(shí)別20分鐘,識(shí)別480了個(gè)驗(yàn)證碼。
若需求方有多臺(tái)計(jì)算機(jī),識(shí)別過程可以多線程。加快識(shí)別速度。
? ? ? ?2.采集過程
采集過程啟用一臺(tái)計(jì)算機(jī),開啟了10個(gè)線程。如果需求方的硬件配置較好,可以開啟100個(gè)線程左右。
經(jīng)過采集,1000s內(nèi)采集到共6410個(gè)鏈接(與數(shù)據(jù)相關(guān)及無關(guān)的鏈接總數(shù)),2423條數(shù)據(jù)(每條數(shù)據(jù)對(duì)應(yīng)一個(gè)企業(yè)的信息)。
? ? ? ?即:在使用一臺(tái)計(jì)算機(jī),開啟10個(gè)線程的情況下:
? ? ? ?1000秒--6410個(gè)鏈接--2423條數(shù)據(jù)
? ? ? ?1小時(shí)--23076個(gè)鏈接--8723條數(shù)據(jù)
? ? ? ?24小時(shí)--553824個(gè)鏈接--209347條數(shù)據(jù)
總結(jié)
以上是生活随笔為你收集整理的如何采集企业信息公示系统的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: RHCE认证考试时间是什么时候?
- 下一篇: 视频存储服务器 存储性能,面向海量高清视