日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

Python读取大文件的坑“与内存占用检测

發布時間:2024/5/7 python 50 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python读取大文件的坑“与内存占用检测 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

python讀寫文件的api都很簡單,一不留神就容易踩”坑“。

筆者記錄一次踩坑歷程,并且給了一些總結,希望到大家在使用python的過程之中,能夠避免一些可能產生隱患的代碼。

  • read()與readlines()
  • 隨手搜索python讀寫文件的教程,很經常看到read()與readlines()這對函數。

    所以我們會常常看到如下代碼:

    with open(file_path, 'rb') as f:sha1Obj.update(f.read()) or with open(file_path, 'rb') as f:for line in f.readlines():print(line)

    這對方法在讀取小文件時確實不會產生什么異常,但是一旦讀取大文件,很容易會產生MemoryError,也就是內存溢出的問題。

    ####Why Memory Error?

    我們首先來看看這兩個方法:

    當默認參數size=-1時,read方法會讀取直到EOF,當文件大小大于可用內存時,自然會發生內存溢出的錯誤。

    read方法

    read([size])方法從文件當前位置起讀取size個字節,若無參數size,則表示讀取至文件結束為止,它范圍為字符串對象

    同樣的,readlines會構造一個list。list而不是iter,所以所有的內容都會保存在內存之上,同樣也會發生內存溢出的錯誤

    readlines方法

    該方法每次讀出一行內容,所以,讀取時占用內存小,比較適合大文件,該方法返回一個字符串對象。

  • 正確的用法
  • 在實際運行的系統之中如果寫出上述代碼是十分危險的,這種”坑“十分隱蔽。所以接下來我們來了解一下正確用,正確的用法也很簡單,依照API之中對函數的描述來進行對應的編碼就OK了:

    如果是二進制文件推薦用如下這種寫法,可以自己指定緩沖區有多少byte。顯然緩沖區越大,讀取速度越快。

    with open(file_path, 'rb') as f:while True:buf = f.read(1024)if buf: sha1Obj.update(buf)else:break

    而如果是文本文件,則可以用readline方法或直接迭代文件(python這里封裝了一個語法糖,二者的內生邏輯一致,不過顯然迭代文件的寫法更pythonic )每次讀取一行,效率是比較低的。筆者簡單測試了一下,在3G文件之下,大概性能和前者差了20%.

    with open(file_path, 'rb') as f:while True:line = f.readline()if buf: print(line)else:break with open(file_path, 'rb') as f:for line in f:print(line)
  • 內存檢測工具的介紹
  • 對于python代碼的內存占用問題,對于代碼進行內存監控十分必要。這里筆者這里推薦兩個小工具來檢測python代碼的內存占用。

    ####memory_profiler

    首先先用pip安裝memory_profiler

    pip install memory_profiler

    memory_profiler是利用python的裝飾器工作的,所以我們需要在進行測試的函數上添加裝飾器。

    from hashlib import sha1 import sys @profile def my_func():sha1Obj = sha1()with open(sys.argv[1], 'rb') as f:while True:buf = f.read(10 * 1024 * 1024)if buf:sha1Obj.update(buf)else:breakprint(sha1Obj.hexdigest()) if __name__ == '__main__':my_func()

    之后在運行代碼時加上** -m memory_profiler**

    就可以了解函數每一步代碼的內存占用了

    guppy

    依樣畫葫蘆,仍然是通過pip先安裝guppy

    pip install guppy

    之后可以在代碼之中利用guppy直接打印出對應各種python類型(list、tuple、dict等)分別創建了多少對象,占用了多少內存。

    from guppy import hpy import sys def my_func():mem = hpy()with open(sys.argv[1], 'rb') as f:while True:buf = f.read(10 * 1024 * 1024)if buf:print(mem.heap())else:break

    如下圖所示,可以看到打印出對應的內存占用數據:

    通過上述兩種工具guppy與memory_profiler可以很好地來監控python代碼運行時的內存占用問題。

  • 小結
  • python是一門崇尚簡潔的語言,但是正是因為它的簡潔反而更多了許多需要仔細推敲和思考的細節。希望大家在日常工作與學習之中也能多對一些細節進行總結,少踩一些不必要的“坑”。

    總結

    以上是生活随笔為你收集整理的Python读取大文件的坑“与内存占用检测的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: 午夜视频h | 日韩精品视频三区 | 越南a级片| 免费视频久久久 | 亚洲av成人精品一区二区三区在线播放 | 欧美在线日韩在线 | 亚洲天堂一区在线观看 | 国产精品美女在线观看 | 男生c女生 | a天堂在线观看视频 | 国产精品乱码一区二区 | 青娱乐在线播放 | 国产成人综合亚洲 | 拔插拔插华人 | 欧美一级在线视频 | 久久高清免费 | 天堂中文视频在线 | 亚洲精品乱码久久久久久久久久久久 | 日韩精品中文字幕在线 | 99热这里只有精品2 91免费版黄 | 日本久操 | 欧美精品第二页 | 欧美精品久久久久久久免费 | 国内自拍偷拍网 | 美女精品久久 | 狠狠操2019| 精品视频三区 | 久青草视频| 韩国19主播内部福利vip | 国产精品久久久久久久蜜臀 | 亚洲天堂aaa| av小说免费在线观看 | 国产精品国产三级国产aⅴ原创 | 欧美黑人性xxx猛交 少妇无套内谢久久久久 | 少妇高潮一区二区三区四区 | 免费人成在线观看网站 | 欧美性福利 | 午夜免费小视频 | 精品无码一区二区三区免费 | 国内成人自拍视频 | 夜夜操天天爽 | 最新91视频 | 久久精品国产亚洲av嫖农村妇女 | 亚洲在线视频观看 | 日韩欧美视频网站 | 日日夜夜天天干 | 卡通动漫av | 黄页网站在线 | 玖玖国产 | 久久无码人妻精品一区二区三区 | 日本熟妇一区二区三区 | 中文字幕一级二级三级 | 69免费| www噜噜噜 | 黄色的毛片 | 人妖被c到高潮欧美gay | 风间由美av| 91成人国产 | 国产乱淫av免费 | 男人天堂2024 | 污片在线看 | 原创露脸88av | 欧美人人爽| 国产精彩视频在线观看 | 免费黄色网址视频 | 少妇一边呻吟一边说使劲视频 | 夜夜草 | 日韩精品在线免费观看 | 丰满饥渴老女人hd | 中文字幕+乱码+中文乱 | 极品美女扒开粉嫩小泬 | 国产精品性爱在线 | 欧美一级二级视频 | 黄色国产视频网站 | 国产在线视频99 | 超碰丝袜| 日本理论片中文字幕 | 337p日本欧洲亚洲鲁鲁 | 久久亚洲AV无码 | 中文字幕一区在线播放 | 午夜婷婷 | 亚洲啪啪av| 亚洲欧美国产高清va在线播放 | 国产啊v在线观看 | 成人深夜视频 | 国精产品一区一区三区视频 | 国产成人精品综合在线观看 | 91小宝寻花一区二区三区 | www.欧美在线观看 | va视频在线观看 | 亚洲欧美一区二区三区四区五区 | 99国产一区| 亚洲欧美韩日 | 黄色一级片视频 | 日日夜夜操操操 | 青青草一区二区三区 | 搡国产老太xxx网站 高h喷汁呻吟3p | 国产一区二区自拍视频 | 日韩av网址在线观看 |