Python 循環讀取數據內存不足的解決方案
看代碼吧~
import gc for x in list(locals().keys())[:]: del locals()[x] # del all_s_x, AE, AE_split, x_ticks, split gc.collect()
補充:Python讀取大文件的”坑“與內存占用檢測
python讀寫文件的api都很簡單,一不留神就容易踩”坑“。筆者記錄一次踩坑歷程,並且給瞭一些總結,希望到大傢在使用python的過程之中,能夠避免一些可能產生隱患的代碼。
1.read()與readlines():
隨手搜索python讀寫文件的教程,很經常看到read()與readlines()這對函數。所以我們會常常看到如下代碼:
with open(file_path, 'rb') as f: sha1Obj.update(f.read())
or
with open(file_path, 'rb') as f: for line in f.readlines(): print(line)
這對方法在讀取小文件時確實不會產生什麼異常,但是一旦讀取大文件,很容易會產生MemoryError,也就是內存溢出的問題。
Why Memory Error?
我們首先來看看這兩個方法:
當默認參數size=-1時,read方法會讀取直到EOF,當文件大小大於可用內存時,自然會發生內存溢出的錯誤。
同樣的,readlines會構造一個list。list而不是iter,所以所有的內容都會保存在內存之上,同樣也會發生內存溢出的錯誤。
2.正確的用法:
在實際運行的系統之中如果寫出上述代碼是十分危險的,這種”坑“十分隱蔽。所以接下來我們來瞭解一下正確用,正確的用法也很簡單,依照API之中對函數的描述來進行對應的編碼就OK瞭:
如果是二進制文件推薦用如下這種寫法,可以自己指定緩沖區有多少byte。顯然緩沖區越大,讀取速度越快。
with open(file_path, 'rb') as f: while True: buf = f.read(1024) if buf: sha1Obj.update(buf) else: break
而如果是文本文件,則可以用readline方法或直接迭代文件(python這裡封裝瞭一個語法糖,二者的內生邏輯一致,不過顯然迭代文件的寫法更pythonic )每次讀取一行,效率是比較低的。筆者簡單測試瞭一下,在3G文件之下,大概性能和前者差瞭20%.
with open(file_path, 'rb') as f: while True: line = f.readline() if buf: print(line) else: break with open(file_path, 'rb') as f: for line in f: print(line)
3.內存檢測工具的介紹:
對於python代碼的內存占用問題,對於代碼進行內存監控十分必要。這裡筆者這裡推薦兩個小工具來檢測python代碼的內存占用。
memory_profiler
首先先用pip安裝memory_profiler
pip install memory_profiler
memory_profiler是利用python的裝飾器工作的,所以我們需要在進行測試的函數上添加裝飾器。
from hashlib import sha1 import sys @profile def my_func(): sha1Obj = sha1() with open(sys.argv[1], 'rb') as f: while True: buf = f.read(10 * 1024 * 1024) if buf: sha1Obj.update(buf) else: break print(sha1Obj.hexdigest()) if __name__ == '__main__': my_func()
之後在運行代碼時加上** -m memory_profiler**
就可以瞭解函數每一步代碼的內存占用瞭
guppy
依樣畫葫蘆,仍然是通過pip先安裝guppy
pip install guppy
之後可以在代碼之中利用guppy直接打印出對應各種python類型(list、tuple、dict等)分別創建瞭多少對象,占用瞭多少內存。
from guppy import hpy import sys def my_func(): mem = hpy() with open(sys.argv[1], 'rb') as f: while True: buf = f.read(10 * 1024 * 1024) if buf: print(mem.heap()) else: break
如下圖所示,可以看到打印出對應的內存占用數據:
通過上述兩種工具guppy與memory_profiler可以很好地來監控python代碼運行時的內存占用問題。
4.小結:
python是一門崇尚簡潔的語言,但是正是因為它的簡潔反而更多瞭許多需要仔細推敲和思考的細節。希望大傢在日常工作與學習之中也能多對一些細節進行總結,少踩一些不必要的“坑”。
以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。
推薦閱讀:
- Python如何實現逐行讀取文本文件
- python函數運行內存時間等性能檢測工具
- python面試題之read、readline和readlines的區別詳解
- Python 如何實現文件自動去重
- Python文件及目錄處理的方法