當前位置：首頁 >

python读取大文件的坑_Python读取大文件的坑“与内存占用检测

發布時間：2025/3/15 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 python读取大文件的坑_Python读取大文件的坑“与内存占用检测小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

python讀寫文件的api都很簡單，一不留神就容易踩”坑“。筆者記錄一次踩坑歷程，并且給了一些總結，希望到大家在使用python的過程之中，能夠避免一些可能產生隱患的代碼。

1.read()與readlines()：

隨手搜索python讀寫文件的教程，很經常看到read()與readlines()這對函數。所以我們會常常看到如下代碼：with open(file_path, 'rb') as f:

sha1Obj.update(f.read())

orwith open(file_path, 'rb') as f:

for line in f.readlines():

print(line)

這對方法在讀取小文件時確實不會產生什么異常，但是一旦讀取大文件，很容易會產生MemoryError，也就是內存溢出的問題。

Why Memory Error？

我們首先來看看這兩個方法：

當默認參數size=-1時，read方法會讀取直到EOF，當文件大小大于可用內存時，自然會發生內存溢出的錯誤。

read方法

同樣的，readlines會構造一個list。list而不是iter，所以所有的內容都會保存在內存之上，同樣也會發生內存溢出的錯誤。

readlines方法

2.正確的用法：

在實際運行的系統之中如果寫出上述代碼是十分危險的，這種”坑“十分隱蔽。所以接下來我們來了解一下正確用，正確的用法也很簡單，依照API之中對函數的描述來進行對應的編碼就OK了：

如果是二進制文件推薦用如下這種寫法，可以自己指定緩沖區有多少byte。顯然緩沖區越大，讀取速度越快。with open(file_path, 'rb') as f:

while True:

buf = f.read(1024)

if buf:

sha1Obj.update(buf)

else:

break

而如果是文本文件，則可以用readline方法或直接迭代文件（python這里封裝了一個語法糖，二者的內生邏輯一致，不過顯然迭代文件的寫法更pythonic ）每次讀取一行，效率是比較低的。筆者簡單測試了一下，在3G文件之下，大概性能和前者差了20%.with open(file_path, 'rb') as f:

while True:

line = f.readline()

if buf:

print(line)

else:

break

with open(file_path, 'rb') as f:

for line in f:

print(line)

3.內存檢測工具的介紹：

對于python代碼的內存占用問題，對于代碼進行內存監控十分必要。這里筆者這里推薦兩個小工具來檢測python代碼的內存占用。

memory_profiler

首先先用pip安裝memory_profilerpip install memory_profiler

memory_profiler是利用python的裝飾器工作的，所以我們需要在進行測試的函數上添加裝飾器。from hashlib import sha1

import sys

@profile

def my_func():

sha1Obj = sha1()

with open(sys.argv[1], 'rb') as f:

while True:

buf = f.read(10 * 1024 * 1024)

if buf:

sha1Obj.update(buf)

else:

break

print(sha1Obj.hexdigest())

if __name__ == '__main__':

my_func()

之后在運行代碼時加上** -m memory_profiler**

就可以了解函數每一步代碼的內存占用了

依次列出每一步代碼的內存占用情況

guppy

依樣畫葫蘆，仍然是通過pip先安裝guppypip install guppy

之后可以在代碼之中利用guppy直接打印出對應各種python類型（list、tuple、dict等）分別創建了多少對象，占用了多少內存。from guppy import hpy

import sys

def my_func():

mem = hpy()

with open(sys.argv[1], 'rb') as f:

while True:

buf = f.read(10 * 1024 * 1024)

if buf:

print(mem.heap())

else:

break

如下圖所示，可以看到打印出對應的內存占用數據：

python代碼詳細的內存占用情況

通過上述兩種工具guppy與memory_profiler可以很好地來監控python代碼運行時的內存占用問題。

4.小結：

python是一門崇尚簡潔的語言，但是正是因為它的簡潔反而更多了許多需要仔細推敲和思考的細節。希望大家在日常工作與學習之中也能多對一些細節進行總結，少踩一些不必要的“坑”。

總結

以上是生活随笔為你收集整理的python读取大文件的坑_Python读取大文件的坑“与内存占用检测的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：大话设计模式读书笔记11----建造者模
下一篇： python中的文件处理_python学

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python读取大文件的坑_Python读取大文件的坑“与内存占用检测

總結