nekohtml和xpath
NekoHTML 和 XPath ? http://dustin.iteye.com/blog/286232 http://www.cnblogs.com/focusj/archive/2012/01/16/2324100.html
1、使用httpclient進(jìn)行頁面數(shù)據(jù)提取,如果需要cookie的網(wǎng)站需要帶cookie(預(yù)先訪問網(wǎng)頁可以獲取cookie),配置查詢URL。
2、使用nokehtml和xpath進(jìn)行結(jié)果的選取。 產(chǎn)生結(jié)果。?
3、使用javascript引擎對(duì)變化的ajax的response進(jìn)行處理。
4、第二步產(chǎn)生的結(jié)果也可以進(jìn)行javascript引擎處理。?
使用數(shù)據(jù)庫配置form需要的數(shù)據(jù),如果:exPassword->icode,number->fphm,code->fpdm,password->fpyzm. ?Extxt->”extxt”….
頁面中的擴(kuò)展字段需要配置
5、Form中特殊數(shù)據(jù)的產(chǎn)生由javascript引擎產(chǎn)生,如時(shí)間戳
6、當(dāng)前網(wǎng)站類型:get,post,ajax(json,XML,亂數(shù)據(jù)),帶驗(yàn)證碼,不帶驗(yàn)證碼,是否需要cookie。
7、不使用proxy代理出外網(wǎng),需要用戶認(rèn)可這種風(fēng)險(xiǎn),或者用戶知會(huì)稅務(wù)網(wǎng)站。
8、如何動(dòng)態(tài)反饋網(wǎng)站的變更?對(duì)網(wǎng)站設(shè)置驗(yàn)證正確的發(fā)票號(hào)碼,用于動(dòng)態(tài)評(píng)估網(wǎng)站是否變更。每天晚上JOB。
?
總結(jié)
以上是生活随笔為你收集整理的nekohtml和xpath的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linkedin爬虫_重新设计Linke
- 下一篇: [html] 写html代码时,怎样才