日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

教你用python爬取网站数据

發(fā)布時間:2025/3/15 python 13 豆豆
生活随笔 收集整理的這篇文章主要介紹了 教你用python爬取网站数据 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

編碼問題

因為涉及到中文,所以必然地涉及到了編碼的問題,這一次借這個機(jī)會算是徹底搞清楚了。

問題要從文字的編碼講起。原本的英文編碼只有0~255,剛好是8位1個字節(jié)。為了表示各種不同的語言,自然要進(jìn)行擴(kuò)充。中文的話有GB系列??赡苓€聽說過Unicode和UTF-8,那么,它們之間是什么關(guān)系呢?

Unicode是一種編碼方案,又稱萬國碼,可見其包含之廣。但是具體存儲到計算機(jī)上,并不用這種編碼,可以說它起著一個中間人的作用。你可以再把Unicode編碼(encode)為UTF-8,或者GB,再存儲到計算機(jī)上。UTF-8或者GB也可以進(jìn)行解碼(decode)還原為Unicode。

在python中Unicode是一類對象,表現(xiàn)為以u打頭的,比如u'中文',而string又是一類對象,是在具體編碼方式下的實(shí)際存在計算機(jī)上的字符串。比如utf-8編碼下的'中文'和gbk編碼下的'中文',并不相同??梢钥慈缦麓a:

?

1

2

3

4

5

6

7

8

9

>>> str=u'中文'

>>> str1=str.encode('utf8')

>>> str2=str.encode('gbk')

>>> print repr(str)

u'\u4e2d\u6587'

>>> print repr(str1)

'\xe4\xb8\xad\xe6\x96\x87'

>>> print repr(str2)

'\xd6\xd0\xce\xc4'

可以看到,其實(shí)存儲在計算機(jī)中的只是這樣的編碼,而不是一個一個的漢字,在print的時候要知道當(dāng)時是用的什么樣的編碼方式,才能正確的print出來。有一個說法提得很好,python中的Unicode才是真正的字符串,而string是字節(jié)串

文件編碼

既然有不同的編碼,那么如果在代碼文件中直接寫string的話,那么它到底是哪一種編碼呢?這個就是由文件的編碼所決定的。文件總是以一定的編碼方式保存的。而python文件可以寫上coding的聲明語句,用來說明這個文件是用什么編碼方式保存的。如果聲明的編碼方式和實(shí)際保存的編碼方式不一致就會出現(xiàn)異常??梢砸娤旅胬?#xff1a; 以utf-8保存的文件聲明為gbk

?

1

2

3

4

5

6

7

8

9

#coding:gbk

str=u'漢'

str1=str.encode('utf8')

str2=str.encode('gbk')

str3='漢'

print repr(str)

print repr(str1)

print repr(str2)

print repr(str3)

提示錯誤 File "test.py", line 1 SyntaxError: Non-ASCII character '\xe6' in file test.py on line 1, but no encodi ng declared; see http://www.python.org/peps/pep-0263.html for details 改為

?

1

2

3

4

5

6

7

8

9

#coding:utf8

str=u'漢'

str1=str.encode('utf8')

str2=str.encode('gbk')

str3='漢'

print repr(str)

print repr(str1)

print repr(str2)

print repr(str3)

輸出正常結(jié)果 u'\u6c49' '\xe6\xb1\x89' '\xba\xba' '\xe6\xb1\x89'

更多內(nèi)容可參見這篇文章http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html

基本方法

其實(shí)用python爬取網(wǎng)頁很簡單,只有簡單的幾句話

?

1

2

import urllib2

page=urllib2.urlopen('url').read()

這樣就可以獲得到頁面的內(nèi)容。接下來再用正則匹配去匹配所需要的內(nèi)容就行了。

但是,真正要做起來,就會有各種各樣的細(xì)節(jié)問題。

登錄

這是一個需要登錄認(rèn)證的網(wǎng)站。也不太難,只要導(dǎo)入cookielib和urllib庫就行。

?

1

2

3

import urllib,urllib2,cookielib

cookiejar = cookielib.CookieJar()

urlOpener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))

這樣就裝載進(jìn)一個cookie,用urlOpener去open登錄以后就可以記住信息。

斷線重連

如果只是做到上面的程度,不對open進(jìn)行包裝的話,只要網(wǎng)絡(luò)狀況有些起伏,就直接拋出異常,退出整個程序,是個很不好的程序。這個時候,只要對異常進(jìn)行處理,多試幾次就行了:

?

1

2

3

4

5

6

7

8

9

def multi_open(opener,*arg):

????while True:

????????retryTimes=20

????????while retryTimes>0:

????????????try:

????????????????return opener.open(*arg)

????????????except:

????????????????print '.',

????????????????retryTimes-=1

正則匹配

其實(shí)正則匹配并不算是一個特別好的方法,因為它的容錯性很不好,網(wǎng)頁要完全統(tǒng)一。如果有稍微的不統(tǒng)一,就會失敗。后來看到說有根據(jù)xpath來進(jìn)行選取的,下次可以嘗試一下。

寫正則其實(shí)是有一定技巧的:

  • 非貪婪匹配。比如這樣一個標(biāo)簽:<span class='a'>hello</span>,要取出a來,如果寫成這樣的表達(dá)式,就不行了:<span class=.*>hello</span>。因為*進(jìn)行了貪婪匹配。這是要用.?:<span class=.?>hello</span>。
  • 跨行匹配。實(shí)現(xiàn)跨行有一種思路是運(yùn)用DOTALL標(biāo)志位,這樣.就會匹配到換行。但是這樣一來,整個匹配過程就會變得很慢。本來的匹配是以行為單位的。整個過程最多就是O(nc2),n是行數(shù),c是平均列數(shù)?,F(xiàn)在極有可能變?yōu)镺((nc)2)。我的實(shí)現(xiàn)方案是運(yùn)用\n來匹配換行,這樣可以明確指出匹配最多跨躍多少行。比如:abc\s*\n\s*def,就指出查找的是隔一行的。(.\n)?就可以指定是匹配盡可能少的行。
  • 這里其實(shí)還要注意一個點(diǎn)。有的行末是帶有\(zhòng)r的。也就是說一行是以\r\n結(jié)尾的。當(dāng)初不知道這一點(diǎn),正則就調(diào)試了很久?,F(xiàn)在直接用\s,表示行末空格和\r。
  • 無捕獲分組。為了不對捕獲的分組造成影響,上面的(.\n)可以改為(?:.\n),這樣捕獲分組時,就會忽略它。
  • 單括號要進(jìn)行轉(zhuǎn)義。因為單括號在正則里是用來表示分組的,所以為了匹配單括號就進(jìn)行轉(zhuǎn)義。正則字符串最好用的是帶有r前綴的字符串,如果不是的話,則要對\再進(jìn)行轉(zhuǎn)義。
  • 快速正則。寫了那么多模式,也總結(jié)出一規(guī)律出來。先把要匹配的字符相關(guān)的段落拿出來。要匹配的東西用(.?)代替。把換行\(zhòng)n替換為字符串\s\n\s*,再去掉行首行末的空格。整個過程在vim中可以很快就寫好。

Excel操作

這次的數(shù)據(jù)是放進(jìn)Excel的。到后面才意識到如果放進(jìn)數(shù)據(jù)庫的話,可能就沒有那么多事了。但是已經(jīng)寫到一半,難以回頭了。

搜索Excel,可以得出幾個方案來,一個是用xlrt/xlwt庫,這個不管電腦上是否安裝了Excel,都可以運(yùn)行,但只能是xls格式的。還有一個是直接包裝了com,需要電腦上安裝了軟件才行。我采用的是前一種。如果大家對Python感興趣的話,可以加一下我們的學(xué)習(xí)交流摳摳群哦:649825285,免費(fèi)領(lǐng)取一套學(xué)習(xí)資料和視頻課程喲~

基本的讀寫沒有問題。但是數(shù)據(jù)量一大起來,就有問題了。

  • 內(nèi)存不夠。程序一跑起來,內(nèi)存占用就一點(diǎn)一點(diǎn)往上漲。后面再查了一下,知道要用flush_row_data。但是還是會出錯。一看內(nèi)存占用,沒有什么問題,一直很平穩(wěn)。但最后還是會出現(xiàn)memory error。這真是見鬼了。又是反復(fù)地查, 反復(fù)地運(yùn)行。一點(diǎn)結(jié)果都沒有。要命的是bug只在數(shù)據(jù)量大起來才出現(xiàn),而等數(shù)據(jù)量大起來往往要好幾個小時,這debug的成本實(shí)在是太高了。一個偶然的機(jī)會,突然發(fā)現(xiàn)內(nèi)存占用,雖然總體平穩(wěn),但是會規(guī)律性的出現(xiàn)小的高漲,而這規(guī)律性,會不會和flush_row_data,有關(guān)。一直疑惑的是data被flush到了哪里。原來xlwt的作法是很蛋疼的作法。把數(shù)據(jù)存在內(nèi)存里,或者flush到一個temp,到save的時候,再一次性寫入。而問題正出在這一次性寫入,內(nèi)存猛漲。那我要flush_row_data何用?為什么不一開始就flush進(jìn)要寫入的地方。
  • 行數(shù)限制。這個是xls格式本身決定的,最多行數(shù)只能是65536。而且數(shù)據(jù)一大,文件打開也不方便。

結(jié)合以上兩點(diǎn),最終采取了這么一個策略,如果行數(shù)是1000的倍數(shù),進(jìn)行一次flush,如果行數(shù)超過65536,新開一個sheet,如果超過3個sheet,則新建一個文件。為了方便,把xlwt包裝了一下

?

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

#coding:utf-8#

import xlwt

?

class XLS:

????'''a class wrap the xlwt'''

????MAX_ROW=65536

????MAX_SHEET_NUM=3

?

????def __init__(self,name,captionList,typeList,encoding='utf8',flushBound=1000):

????????self.name=name

????????self.captionList=captionList[:]

????????self.typeList=typeList[:]

????????self.workbookIndex=1

????????self.encoding=encoding

????????self.wb=xlwt.Workbook(encoding=self.encoding)

????????self.sheetIndex=1

????????self.__addSheet()

????????self.flushBound=flushBound

?????

????def __addSheet(self):

????????if self.sheetIndex != 1:

????????????self.wb.save(self.name+str(self.workbookIndex)+'.xls')

????????if self.sheetIndex>XLS.MAX_SHEET_NUM:

????????????self.workbookIndex+=1

????????????self.wb=xlwt.Workbook(encoding=self.encoding)

????????????self.sheetIndex=1

?

????????self.sheet=self.wb.add_sheet(self.name.encode(self.encoding)+str(self.sheetIndex))

????????for i in range(len(self.captionList)):

????????????self.sheet.write(0,i,self.captionList[i])

?

????????self.row=1

?

????def write(self,data):

????????if self.row>=XLS.MAX_ROW:

????????????self.sheetIndex += 1

????????????self.__addSheet()

?

????????for i in range(len(data)):

????????????if self.typeList[i]=="num":

????????????????try:

????????????????????self.sheet.write(self.row,i,float(data[i]))

????????????????except ValueError:

????????????????????pass

????????????else:

????????????????self.sheet.write(self.row,i,data[i])

?

????????if self.row % self.flushBound == 0:

????????????self.sheet.flush_row_data()

????????self.row+=1

?

????def save(self):

????????self.wb.save(self.name+str(self.workbookIndex)+'.xls')

轉(zhuǎn)換網(wǎng)頁特殊字符

由于網(wǎng)頁也有自己獨(dú)特的轉(zhuǎn)義字符,在進(jìn)行正則匹配的時候就有些麻煩。在官方文檔中查到一個用字典替換的方案,私以為不錯,拿來做了一些擴(kuò)充。其中有一些是為保持正則的正確性。

?

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

html_escape_table = {

????"&": "&amp;",

????'"': "&quot;",

????"'": "&apos;",

????">": "&gt;",

????"<": "&lt;",

????u"·":"&#183;",

????u"°":"&#176;",

????#regular expression

????".":r"\.",

????"^":r"\^",

????"$":r"\$",

????"{":r"\{",

????"}":r"\}",

????"\\":r"\\",

????"|":r"\|",

????"(":r"\(",

????")":r"\)",

????"+":r"\+",

????"*":r"\*",

????"?":r"\?",

}

?

def html_escape(text):

????"""Produce entities within text."""

????tmp="".join(html_escape_table.get(c,c) for c in text)

????return tmp.encode("utf-8")

結(jié)

得出的經(jīng)驗差不多就是這些了。不過最后寫出來的程序自已也不忍再看。風(fēng)格很不好。一開始想著先寫著試試。然后試著試著就不想改了。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的教你用python爬取网站数据的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 26uuu成人网| 嫦娥性艳史bd | 99久久一区二区 | 污色视频 | 国产三级精品三级在线 | 久久22 | 大桥未久av一区二区三区中文 | 毛片网站免费 | 四虎啪啪 | 干干干操操操 | 91玉足脚交白嫩脚丫 | 污污免费在线观看 | 久久五十路 | 香蕉影院在线 | 亚洲综合a| 欧美wwwwww | 亚洲av无码国产在丝袜线观看 | 亚洲清纯唯美 | 欧美三p | 免费看的黄色网 | 色婷婷中文字幕 | 欧美日韩一区二区电影 | 精品视频一区二区三区四区 | 麻豆传媒一区二区 | www.av在线播放 | 中文字幕在线视频日韩 | 米奇影音| 欧美一二区视频 | 亚洲天堂一区二区三区 | 日韩精品中文字幕一区 | 五月天黄色网 | 亚洲欧美日韩中文字幕在线观看 | 国产一区麻豆 | 精品免费久久久 | 久久久久久久成人 | 女性裸体无遮挡胸 | av在线.com| 在线免费一区 | 涩涩视频网址 | 国产欧美高清 | 色吟av| 91在线导航 | 久久91av | 美女隐私免费 | 国产极品美女高潮无套在线观看 | 黄色一级小说 | 羞羞影院体验区 | 啪啪短视频 | www..com黄色 | 日韩综合在线观看 | 免费三级黄 | av导航在线观看 | 男人深夜网站 | 亚洲国产一区在线 | 国产剧情av麻豆香蕉精品 | 亚洲国产第一页 | 93久久精品日日躁夜夜躁欧美 | 亚洲成av人片 | 久久国内偷拍 | 影音先锋啪啪资源 | 四虎影裤 | 欧美激情啪啪 | 在线观看h网站 | 国产成人综合欧美精品久久 | 男人肌肌桶女人肌肌 | 天天干天天干天天干 | 欧美一级大片在线观看 | 又大又粗又爽18禁免费看 | 宅男噜噜噜66一区二区 | 免费看的一级片 | 国产精品你懂的 | 美乳人妻一区二区三区 | 色网站在线免费观看 | 天天操天天射天天爱 | 亚洲av成人精品日韩在线播放 | 亚洲一区中文字幕在线观看 | 日韩成人一区二区 | 美女高潮在线 | 亚洲精品视频国产 | 欧洲成人免费视频 | 亚洲综合精品 | 台湾综合色 | 国产视频一区二区 | 精品免费在线视频 | 成年人在线观看视频 | www欧美 | 调教撅屁股啪调教打臀缝av | 四虎色网 | 国产高清不卡一区 | 99精品视频免费 | 在线黄av| 成人福利网址 | 好男人影视www | 天堂在线视频免费观看 | 伊人久久大香线蕉av一区 | 午夜影院免费视频 | 久久久久久久91 | 三级色视频| 91大片在线观看 |