Python利用臨時文件實現數據的保存

假設有一個 WebSocket 接口,會源源不斷地產生數據,我們需要將其保存下來,然後進行處理。但由於數據量比較大,無法一次性加載到內存,最好的辦法就是保存到文件裡。

如果數據處理完畢,不再需要相關文件的話,那麼我們可以使用臨時文件。臨時文件的最大好處就是,不用命名、並且關閉時會自動刪除,而無需我們手動刪。

下面我們來看看如何使用臨時文件。

import tempfile

# 第一個參數是 mode,表示打開模式
# 默認是 "wb+",二進制可讀可寫
f = tempfile.TemporaryFile()
# 假設我們寫 1G 的數據
f.write(b"+" * 1024 * 1024 * 1024)
# 此時文件指針會移動到末尾
# 想要讀取的話,需要移動到開頭
f.seek(0, 0)
print(len(f.read()))
"""
1073741824
"""
print(1073741824 == 1024 * 1024 * 1024)
"""
True
"""

臨時文件和真實文件的操作方法是一樣的,因為臨時文件本質上也屬於文件,它的數據也存儲在系統上,隻不過我們不知道罷瞭。當調用 f.close(),臨時文件就會被自動刪除,占用的磁盤空間也會被釋放。我們來驗證一下:

import psutil
import tempfile

GB_UNIT = 1024 * 1024 * 1024

# 臨時文件默認存儲在 C 盤
# 我們查看已經使用的空間
print(
    psutil.disk_usage("C:\\").used / GB_UNIT
)  # 89.93075561523438

f = tempfile.TemporaryFile()
# 寫 1G 的數據
f.write(b"+" * 1024 * 1024 * 1024)

# 不出意外的話,應該增加 1G
print(
    psutil.disk_usage("C:\\").used / GB_UNIT
)  # 90.93075561523438

# 關閉臨時文件,然後釋放磁盤空間
f.close()
# 所以又會減少 1G
print(
    psutil.disk_usage("C:\\").used / GB_UNIT
)  # 89.93075561523438

輸出一切正常,所以結論如下:

  • 臨時文件本質上也是文件,它在存儲數據的時候,也是存儲在磁盤上,和真實文件並無二致;
  • 臨時文件的調用屬於操作系統級別的,所以它的創建、讀寫數據,最終都會走操作系統提供的系統調用;
  • 臨時文件在被關閉時,操作系統會自動刪除;

然後我們還可以指定臨時文件的存儲位置,雖然臨時文件關閉時會自動刪除,但我們還是希望它能存儲在指定的位置上。

import tempfile
import time

f = tempfile.TemporaryFile(dir=r"E:\data")
time.sleep(30)

為瞭觀察到現象,這裡 sleep 瞭 30 秒。執行時,打開目錄,會發現文件創建瞭,並且操作系統幫我們起瞭個名字。

等 30 秒過後,文件又被自動刪除瞭。

然後 TemporaryFile 裡面還接收其它參數,我們來看一下:

大部分參數和內置函數 open 類似,但裡面有一個 prefix 和 suffix 參數。因為臨時文件也是文件,也要存儲在磁盤上,隻不過關閉之後會自動刪除。所以它也要有一個名字,默認名字的前綴是 "tmp",沒有後綴,而我們可以指定前綴和後綴,舉個例子:

import tempfile
import time

f = tempfile.TemporaryFile(dir=r"E:\data",
                           prefix="你好呀",
                           suffix="我不好")
time.sleep(30)

執行一下看看:

此時文件的前綴和後綴就被我們改掉瞭,不過說實話這個前綴和後綴沒太大卵用,既然是臨時文件,用完就刪除瞭,名字沒太大關註的必要。

那麼問題來瞭,如果不指定 dir 參數,我們就不知道文件存在哪瞭嗎?顯然不是的,默認存在什麼地方,tempfile 已經提前告訴我們瞭。

import tempfile

# Linux 系統是 /tmp
print(
    tempfile.gettempdir()
)  # C:\Users\satori\AppData\Local\Temp
# 返回二進制結果
print(
    tempfile.gettempdirb()
)  # b'C:\\Users\\satori\\AppData\\Local\\Temp'

# 獲取前綴
print(
    tempfile.gettempprefix()
)  # tmp
# 返回二進制結果
print(
    tempfile.gettempprefixb()
)  # b'tmp'

最後想說的是,臨時文件也可以使用 mmap 進行映射。

import tempfile
import mmap

f = tempfile.TemporaryFile()
f.write(b"hello, world")
# 映射之前需要移動一下光標
f.seek(0, 0)
# mmap 映射,這裡就映射 5 字節
m = mmap.mmap(f.fileno(), 5)
m[:] = b"HELLO"

# 再次打印
print(f.read())
"""
b'HELLO, world'
"""

以上就是臨時文件的用法,當然 tempfile 還提供瞭其它的操作,有興趣可以瞭解一下,但使用最普遍的還是 TemporaryFile。

到此這篇關於Python利用臨時文件實現數據的保存的文章就介紹到這瞭,更多相關Python臨時文件保存數據內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: