Python读取大文件的坑“与内存占用检测
python讀寫(xiě)文件的api都很簡(jiǎn)單,一不留神就容易踩”坑“。
筆者記錄一次踩坑歷程,并且給了一些總結(jié),希望到大家在使用python的過(guò)程之中,能夠避免一些可能產(chǎn)生隱患的代碼。
隨手搜索python讀寫(xiě)文件的教程,很經(jīng)常看到read()與readlines()這對(duì)函數(shù)。
所以我們會(huì)常常看到如下代碼:
with open(file_path, 'rb') as f:sha1Obj.update(f.read()) or with open(file_path, 'rb') as f:for line in f.readlines():print(line)這對(duì)方法在讀取小文件時(shí)確實(shí)不會(huì)產(chǎn)生什么異常,但是一旦讀取大文件,很容易會(huì)產(chǎn)生MemoryError,也就是內(nèi)存溢出的問(wèn)題。
####Why Memory Error?
我們首先來(lái)看看這兩個(gè)方法:
當(dāng)默認(rèn)參數(shù)size=-1時(shí),read方法會(huì)讀取直到EOF,當(dāng)文件大小大于可用內(nèi)存時(shí),自然會(huì)發(fā)生內(nèi)存溢出的錯(cuò)誤。
read方法
read([size])方法從文件當(dāng)前位置起讀取size個(gè)字節(jié),若無(wú)參數(shù)size,則表示讀取至文件結(jié)束為止,它范圍為字符串對(duì)象
同樣的,readlines會(huì)構(gòu)造一個(gè)list。list而不是iter,所以所有的內(nèi)容都會(huì)保存在內(nèi)存之上,同樣也會(huì)發(fā)生內(nèi)存溢出的錯(cuò)誤
readlines方法
該方法每次讀出一行內(nèi)容,所以,讀取時(shí)占用內(nèi)存小,比較適合大文件,該方法返回一個(gè)字符串對(duì)象。
在實(shí)際運(yùn)行的系統(tǒng)之中如果寫(xiě)出上述代碼是十分危險(xiǎn)的,這種”坑“十分隱蔽。所以接下來(lái)我們來(lái)了解一下正確用,正確的用法也很簡(jiǎn)單,依照API之中對(duì)函數(shù)的描述來(lái)進(jìn)行對(duì)應(yīng)的編碼就OK了:
如果是二進(jìn)制文件推薦用如下這種寫(xiě)法,可以自己指定緩沖區(qū)有多少byte。顯然緩沖區(qū)越大,讀取速度越快。
with open(file_path, 'rb') as f:while True:buf = f.read(1024)if buf: sha1Obj.update(buf)else:break而如果是文本文件,則可以用readline方法或直接迭代文件(python這里封裝了一個(gè)語(yǔ)法糖,二者的內(nèi)生邏輯一致,不過(guò)顯然迭代文件的寫(xiě)法更pythonic )每次讀取一行,效率是比較低的。筆者簡(jiǎn)單測(cè)試了一下,在3G文件之下,大概性能和前者差了20%.
with open(file_path, 'rb') as f:while True:line = f.readline()if buf: print(line)else:break with open(file_path, 'rb') as f:for line in f:print(line)對(duì)于python代碼的內(nèi)存占用問(wèn)題,對(duì)于代碼進(jìn)行內(nèi)存監(jiān)控十分必要。這里筆者這里推薦兩個(gè)小工具來(lái)檢測(cè)python代碼的內(nèi)存占用。
####memory_profiler
首先先用pip安裝memory_profiler
pip install memory_profilermemory_profiler是利用python的裝飾器工作的,所以我們需要在進(jìn)行測(cè)試的函數(shù)上添加裝飾器。
from hashlib import sha1 import sys @profile def my_func():sha1Obj = sha1()with open(sys.argv[1], 'rb') as f:while True:buf = f.read(10 * 1024 * 1024)if buf:sha1Obj.update(buf)else:breakprint(sha1Obj.hexdigest()) if __name__ == '__main__':my_func()之后在運(yùn)行代碼時(shí)加上** -m memory_profiler**
就可以了解函數(shù)每一步代碼的內(nèi)存占用了
guppy
依樣畫(huà)葫蘆,仍然是通過(guò)pip先安裝guppy
pip install guppy之后可以在代碼之中利用guppy直接打印出對(duì)應(yīng)各種python類(lèi)型(list、tuple、dict等)分別創(chuàng)建了多少對(duì)象,占用了多少內(nèi)存。
from guppy import hpy import sys def my_func():mem = hpy()with open(sys.argv[1], 'rb') as f:while True:buf = f.read(10 * 1024 * 1024)if buf:print(mem.heap())else:break如下圖所示,可以看到打印出對(duì)應(yīng)的內(nèi)存占用數(shù)據(jù):
通過(guò)上述兩種工具guppy與memory_profiler可以很好地來(lái)監(jiān)控python代碼運(yùn)行時(shí)的內(nèi)存占用問(wèn)題。
python是一門(mén)崇尚簡(jiǎn)潔的語(yǔ)言,但是正是因?yàn)樗暮?jiǎn)潔反而更多了許多需要仔細(xì)推敲和思考的細(xì)節(jié)。希望大家在日常工作與學(xué)習(xí)之中也能多對(duì)一些細(xì)節(jié)進(jìn)行總結(jié),少踩一些不必要的“坑”。
總結(jié)
以上是生活随笔為你收集整理的Python读取大文件的坑“与内存占用检测的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Python3 关键字nonlocal和
- 下一篇: python 之信号Signal