python自动化爬取app_松勤软件自动化测试-如何利用Python爬取网站数据?
這樣就裝載進一個cookie,用urlOpener去open登錄以后就可以記住信息。
3.斷線重連
如果只是做到上面的程度,不對open進行包裝的話,只要網絡狀況有些起伏,就直接拋出異常,退出整個程序,是個很不好的程序。這個時候,只要對異常進行處理,多試幾次就行了:
4.正則匹配
其實正則匹配并不算是一個特別好的方法,因為它的容錯性很不好,網頁要完全統(tǒng)一。如果有稍微的不統(tǒng)一,就會失敗。后來看到說有根據(jù)xpath來進行選取的,下次可以嘗試一下。
寫正則其實是有一定技巧的:
非貪婪匹配。比如這樣一個標簽:hello,要取出a來,如果寫成這樣的表達式,就不行了:hello。因為*進行了貪婪匹配。這是要用.?:hello。
跨行匹配。實現(xiàn)跨行有一種思路是運用DOTALL標志位,這樣.就會匹配到換行。但是這樣一來,整個匹配過程就會變得很慢。本來的匹配是以行為單位的。整個過程最多就是O(nc2),n是行數(shù),c是平均列數(shù)。現(xiàn)在極有可能變?yōu)镺((nc)2)。我的實現(xiàn)方案是運用\n來匹配換行,這樣可以明確指出匹配最多跨躍多少行。比如:abc\s*\n\s*def,就指出查找的是隔一行的。(.\n)?就可以指定是匹配盡可能少的行。
這里其實還要注意一個點。有的行末是帶有\(zhòng)r的。也就是說一行是以\r\n結尾的。當初不知道這一點,正則就調試了很久。現(xiàn)在直接用\s,表示行末空格和\r。
無捕獲分組。為了不對捕獲的分組造成影響,上面的(.\n)可以改為(?:.\n),這樣捕獲分組時,就會忽略它。
單括號要進行轉義。因為單括號在正則里是用來表示分組的,所以為了匹配單括號就進行轉義。正則字符串最好用的是帶有r前綴的字符串,如果不是的話,則要對\再進行轉義。
快速正則。寫了那么多模式,也總結出一規(guī)律出來。先把要匹配的字符相關的段落拿出來。要匹配的東西用(.?)代替。把換行\(zhòng)n替換為字符串\s\n\s*,再去掉行首行末的空格。整個過程在vim中可以很快就寫好。
5.Excel操作
這次的數(shù)據(jù)是放進Excel的。搜索Excel,可以得出幾個方案來,一個是用xlrt/xlwt庫,這個不管電腦上是否安裝了Excel,都可以運行,但只能是xls格式的。還有一個是直接包裝了com,需要電腦上安裝了軟件才行。這里采用的是前一種。
基本的讀寫沒有問題。但是數(shù)據(jù)量一大起來,就有問題了。
內存不夠。程序一跑起來,內存占用就一點一點往上漲。后面再查了一下,知道要用flush_row_data。但是還是會出錯。一看內存占用,沒有什么問題,一直很平穩(wěn)。但最后還是會出現(xiàn)memory error。這真是見鬼了。又是反復地查, 反復地運行。一點結果都沒有。要命的是bug只在數(shù)據(jù)量大起來才出現(xiàn),而等數(shù)據(jù)量大起來往往要好幾個小時,這debug的成本實在是太高了。一個偶然的機會,突然發(fā)現(xiàn)內存占用,雖然總體平穩(wěn),但是會規(guī)律性的出現(xiàn)小的高漲,而這規(guī)律性,會不會和flush_row_data,有關。一直疑惑的是data被flush到了哪里。原來xlwt的作法是很蛋疼的作法。把數(shù)據(jù)存在內存里,或者flush到一個temp,到save的時候,再一次性寫入。而問題正出在這一次性寫入,內存猛漲。那我要flush_row_data何用?為什么不一開始就flush進要寫入的地方。
行數(shù)限制。這個是xls格式本身決定的,最多行數(shù)只能是65536。而且數(shù)據(jù)一大,文件打開也不方便。
結合以上兩點,最終采取了這么一個策略,如果行數(shù)是1000的倍數(shù),進行一次flush,如果行數(shù)超過65536,新開一個sheet,如果超過3個sheet,則新建一個文件。為了方便,把xlwt包裝了一下:
6.轉換網頁特殊字符
由于網頁也有自己獨特的轉義字符,在進行正則匹配的時候就有些麻煩。在官方文檔中查到一個用字典替換的方案,私以為不錯,拿來做了一些擴充。其中有一些是為保持正則的正確性。
7.總結
最終的程序要跑很久,其中網絡通信時間占了大部分。是不是可以考慮用多線程重構一下?大家可以加群(814326044)一起討論一下,另外松勤網里面會分享很多軟件測試基礎、自動化、性能、接口等純技術干貨和免費資料。
總結
以上是生活随笔為你收集整理的python自动化爬取app_松勤软件自动化测试-如何利用Python爬取网站数据?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 南开22春学期(高起本1709、全层次1
- 下一篇: python与西门子PLC通讯