前嗅ForeSpider中数据采集界面介绍
2019獨(dú)角獸企業(yè)重金招聘Python工程師標(biāo)準(zhǔn)>>>
一、運(yùn)行設(shè)置 數(shù)據(jù)采集前的設(shè)置,包括采集速度、采集策略、任務(wù)裝載、網(wǎng)絡(luò)超時(shí)、HTTP設(shè)置、加載設(shè)置、任務(wù)模式、任務(wù)定時(shí)、預(yù)警設(shè)置、過濾設(shè)置10個(gè)部分。
【運(yùn)行設(shè)置界面】
二、IP代理設(shè)置
軟件支持動態(tài)和靜態(tài)IP代理,支持http/https/socket代理。當(dāng)需要啟用IP代理時(shí),需要在資源管理界面添加代理資源。
【IP代理設(shè)置界面】
1.啟用IP代理
啟用IP代理采集時(shí),需要進(jìn)行代理配置。需選中“啟用IP代理”,才能啟用IP代理功能。
【啟用IP代理】
2.IP資源列表
添加完成的IP資源后會在列表中顯示。
【IP資源列表】
:添加IP資源代理。
:刪除IP資源代理。
:保存IP資源代理
:修改IP資源代理
3.IP代理配置
可添加IP代理賬號,配置IP代理屬性。
(1)靜態(tài)代理IP
【靜態(tài)代理IP配置】
:添加IP資源代理。
:刪除IP資源代理。
:批量導(dǎo)入IP賬號。
:保存IP資源代理。
(2)動態(tài)代理IP
【動態(tài)代理IP配置】
①協(xié)議類型:選擇代理的協(xié)議類型,軟件支持http/https/socket代理。
②返回格式:選擇動態(tài)IP的返回格式。包括未知、Text、Json、XML。
③刷新周期:指代理IP的有效時(shí)長。
④請求地址:粘貼代理商的請求地址。
⑤POST DATA:根據(jù)代理不同,post請求的情況下填寫該內(nèi)容。
⑥代碼編輯區(qū):需要填寫一段腳本,以調(diào)用代理IP。
4.啟用代理加速
啟用代理加速后,可以在采集過程中自動篩選無效和低效率的代理IP(屏蔽錯(cuò)誤率超過50%,請求次數(shù)>3次的IP),優(yōu)先使用高效的代理,提升采集的效率和數(shù)據(jù)質(zhì)量。
【代理加速】
5.本機(jī)IP混用策略
當(dāng)代理IP失效時(shí),選擇是否啟用本地網(wǎng)絡(luò)。
【本機(jī)IP混用策略】
三、驗(yàn)證碼設(shè)置
當(dāng)采集某些網(wǎng)站的數(shù)據(jù)時(shí),每一條數(shù)據(jù)都需要輸入一條驗(yàn)證碼時(shí)就用到了驗(yàn)證碼設(shè)置。驗(yàn)證碼設(shè)置的作用是爬蟲軟件自身輸入驗(yàn)證碼,以避免人工輸入。
【驗(yàn)證碼設(shè)置界面】
1.識別配平臺
軟件內(nèi)置了兩個(gè)打碼平臺,可根據(jù)不同的平臺進(jìn)行驗(yàn)證碼配置。
【識別平臺】
(1)基礎(chǔ)識別平臺:預(yù)定的內(nèi)置識別方式。
(2)若快:若快為打碼平臺。軟件通過打碼平臺解析驗(yàn)證碼內(nèi)容。
2.識別列表
添加驗(yàn)證碼識別名稱。
【識別列表】
3.驗(yàn)證碼設(shè)置與測試(不常用)
【資源配置】
其中紅框內(nèi)詳情、保存、下載、清空、測試是用來測試驗(yàn)證碼是否正確的。點(diǎn)擊測試如果右側(cè)驗(yàn)證碼圖片與圖片下解析出來的文字一致,就證明驗(yàn)證碼設(shè)置的正確。
轉(zhuǎn)載于:https://my.oschina.net/forespider/blog/3009471
總結(jié)
以上是生活随笔為你收集整理的前嗅ForeSpider中数据采集界面介绍的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: BZOJ3173:[TJOI2013]最
- 下一篇: Jmeter(六)关联之XPath提取器