2017.3.5阿凡python简单爬虫尝试,奉献源码
慕課網(wǎng)Python開發(fā)簡單爬蟲源碼有注釋
今天2017年3月5日,杭城天氣不是很好,但對我來說今天依然是一個(gè)好日子。今天發(fā)生了一些故事,最主要的我倒騰了幾天的python爬蟲總算是完成了。將源碼奉獻(xiàn)出來,拍磚請輕點(diǎn)。
參考教程
慕課網(wǎng)的python開發(fā)簡單爬蟲
http://www.imooc.com/learn/563
注:本人代碼基本參考(應(yīng)該是完全)該教程的內(nèi)容,開發(fā)工具用的是pycharm,教程的用的eclips做python開發(fā)還得搞七搞八實(shí)在是太麻煩了。其實(shí)我是搞失敗了,請無視這句。
個(gè)人背景說明:
本人是業(yè)余玩家,學(xué)校學(xué)的是搬磚。看了一部分傳智播客java基礎(chǔ)的視頻,按他們的流程算應(yīng)該是十五天吧。看了一些python基礎(chǔ)的電子書和一些教程。
開發(fā)過程中碰到的一些問題:
主要是一開始的那些配置,比如導(dǎo)入bs4模塊,那個(gè)setup調(diào)用我是沒成功過,只有在運(yùn)行那個(gè)程序后有加載進(jìn)去,但是退出后重新建個(gè)python就找不到bs模塊了。最后我用的是pip的方法。
期間跟著視頻敲代碼肯定不會(huì)有問題的。最后測試運(yùn)行GG了,
因?yàn)閷@個(gè)開發(fā)工具不了解,不知道怎么調(diào)試,只會(huì)使用運(yùn)行功能,所以用了個(gè)很low的方法,按照程序的運(yùn)行流程插入print“hello1”之類的方式來判斷程序運(yùn)行到哪里掛了,報(bào)錯(cuò)是什么鬼也看不懂,所以看我的源碼亂的一筆。還有print soup 等直接打印各種亂七八糟的東西來判斷是否正確運(yùn)行,反正能解決問題就好。就通過這樣的方式我知道這個(gè)程序問題出現(xiàn)在網(wǎng)頁解析器上,于是我建了個(gè)text_parser做解析方面的測試。我復(fù)制網(wǎng)頁解析器的代碼這個(gè)模塊進(jìn)行改造,讓它直接順序執(zhí)行,參數(shù)直接定義,不考慮函數(shù)調(diào)用,不考慮循環(huán)。后來發(fā)現(xiàn)這個(gè)解析的關(guān)鍵字跟視頻教程的是不一樣的,可能是百度更新了吧。主要是我看的時(shí)候有看到很視頻教程一樣關(guān)鍵字,就沒仔細(xì)去找直接參考視頻教程里的了。然后鏈接解析這塊搞定了。第二部分就是標(biāo)題和內(nèi)容主要是我一些名字寫錯(cuò)了,我把【class_】寫成【Class】因?yàn)榫幊唐髯詣?dòng)提示有Class還是有色的我以為就是他了。最后這個(gè)網(wǎng)頁解析器弄完,我又直接對主程序進(jìn)行運(yùn)行,這次完美運(yùn)行。
雖然速度比較慢,生出來的網(wǎng)頁排版很詭異,抓到內(nèi)容更詭異。但畢竟是第一次,趕緊發(fā)個(gè)帖子留戀一下
下一步目標(biāo):
1.生成excel表格,生成網(wǎng)頁有屁用,還這么難看
2.用多線程,再高級就是用分布式了,畢竟電腦這么多等我去搞
配圖:
杭州python學(xué)習(xí)交流群 616744861
總結(jié)
以上是生活随笔為你收集整理的2017.3.5阿凡python简单爬虫尝试,奉献源码的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2010年会考计算机试题,2010年浙江
- 下一篇: json_encode函数参数详解