淺析Python的對象拷貝和內存佈局

前言

在本篇文章當中主要給大傢介紹 python 當中的拷貝問題,話不多說我們直接看代碼,你知道下面一些程序片段的輸出結果嗎?

a = [1, 2, 3, 4]
b = a
print(f"{a = } \t|\t {b = }")
a[0] = 100
print(f"{a = } \t|\t {b = }")
a = [1, 2, 3, 4]
b = a.copy()
print(f"{a = } \t|\t {b = }")
a[0] = 100
print(f"{a = } \t|\t {b = }")
a = [[1, 2, 3], 2, 3, 4]
b = a.copy()
print(f"{a = } \t|\t {b = }")
a[0][0] = 100
print(f"{a = } \t|\t {b = }")
a = [[1, 2, 3], 2, 3, 4]
b = copy.copy(a)
print(f"{a = } \t|\t {b = }")
a[0][0] = 100
print(f"{a = } \t|\t {b = }")
a = [[1, 2, 3], 2, 3, 4]
b = copy.deepcopy(a)
print(f"{a = } \t|\t {b = }")
a[0][0] = 100
print(f"{a = } \t|\t {b = }")

在本篇文章當中我們將對上面的程序進行詳細的分析。

Python 對象的內存佈局

在 python 當中我們應該如何確定一個對象的內存地址呢?在 Python 當中給我們提供瞭一個內嵌函數 id() 用於得到一個對象的內存地址:

a = [1, 2, 3, 4]
b = a
print(f"{a = } \t|\t {b = }")
a[0] = 100
print(f"{a = } \t|\t {b = }")
print(f"{id(a) = } \t|\t {id(b) = }")
# 輸出結果
# a = [1, 2, 3, 4]  |  b = [1, 2, 3, 4]
# a = [100, 2, 3, 4]  |  b = [100, 2, 3, 4]
# id(a) = 4393578112  |  id(b) = 4393578112

事實上上面的對象內存佈局是有一點問題的,或者說是不夠準確的,但是也是能夠表示出各個對象之間的關系的,我們現在來深入瞭解一下。在 Cpython 裡你可以認為每一個變量都可以認為是一個指針,指向被表示的那個數據,這個指針保存的就是這個 Python 對象的內存地址。

在 Python 當中,實際上列表保存的指向各個 Python 對象的指針,而不是實際的數據,因此上面的一小段代碼,可以用如下的圖表示對象在內存當中的佈局:

變量 a 指向內存當中的列表 [1, 2, 3, 4],列表當中有 4 個數據,這四個數據都是指針,而這四個指針指向內存當中 1,2,3,4 這四個數據。可能你會有疑問,這不是有問題嗎?都是整型數據為什麼不直接在列表當中存放整型數據,為啥還要加一個指針,再指向這個數據呢?

事實上在 Python 當中,列表當中能夠存放任何 Python 對象,比如下面的程序是合法的:

data = [1, {1:2, 3:4}, {'a', 1, 2, 25.0}, (1, 2, 3), "hello world"]

在上面的列表當中第一個到最後一個數據的數據類型為:整型數據,字典,集合,元祖,字符串,現在來看為瞭實現  Python 的這個特性,指針的特性是不是符合要求呢?每個指針所占用的內存是一樣的,因此可以使用一個數組去存儲 Python 對象的指針,然後再將這個指針指向真正的 Python 對象!

牛刀小試

在經過上面的分析之後,我們來看一下下面的代碼,他的內存佈局是什麼情況:

data = [[1, 2, 3], 4, 5, 6]
data_assign = data
data_copy = data.copy()

  • data_assign = data,關於這個賦值語句的內存佈局我們在之前已經談到過瞭,不過我們也再復習一下,這個賦值語句的含義就是 data_assign 和 data 指向的數據是同一個數據,也就是同一個列表。
  • data_copy = data.copy(),這條賦值語句的含義是將 data 指向的數據進行淺拷貝,然後讓 data_copy 指向拷貝之後的數據,這裡的淺拷貝的意思就是,對列表當中的每一個指針進行拷貝,而不對列表當中指針指向的數據進行拷貝。從上面的對象的內存佈局圖我們可以看到 data_copy 指向一個新的列表,但是列表當中的指針指向的數據和 data 列表當中的指針指向的數據是一樣的,其中 data_copy 使用綠色的箭頭進行表示,data 使用黑色的箭頭進行表示。

查看對象的內存地址

在前面的文章當中我們主要分析瞭一下對象的內存佈局,在本小節我們使用 python 給我們提供一個非常有效的工具去驗證這一點。在 python 當中我們可以使用 id() 去查看對象的內存地址,id(a) 就是查看對象 a 所指向的對象的內存地址。

看下面的程序的輸出結果:

a = [1, 2, 3]
b = a
print(f"{id(a) = } {id(b) = }")
for i in range(len(a)):
    print(f"{i = } {id(a[i]) = } {id(b[i]) = }")

根據我們之前的分析,a 和 b 指向的同一塊內存,也就說兩個變量指向的是同一個 Python 對象,因此上面的多有輸出的 id 結果 a 和 b 都是相同的,上面的輸出結果如下:

id(a) = 4392953984 id(b) = 4392953984
i = 0 id(a[i]) = 4312613104 id(b[i]) = 4312613104
i = 1 id(a[i]) = 4312613136 id(b[i]) = 4312613136
i = 2 id(a[i]) = 4312613168 id(b[i]) = 4312613168

看一下淺拷貝的內存地址:

a = [[1, 2, 3], 4, 5]
b = a.copy()
print(f"{id(a) = } {id(b) = }")
for i in range(len(a)):
    print(f"{i = } {id(a[i]) = } {id(b[i]) = }")

根據我們在前面的分析,調用列表本身的 copy 方法是對列表進行淺拷貝,隻拷貝列表的指針數據,並不拷貝列表當中指針指向的真正的數據,因此如果我們對列表當中的數據進行遍歷得到指向的對象的地址的話,列表 a 和列表 b 返回的結果是一樣的,但是和上一個例子不同的是 a 和 b 指向的列表的本身的地址是不一樣的(因為進行瞭數據拷貝,可以參照下面淺拷貝的結果進行理解)。

可以結合下面的輸出結果和上面的文字進行理解:

id(a) = 4392953984 id(b) = 4393050112 # 兩個對象的輸出結果不相等
i = 0 id(a[i]) = 4393045632 id(b[i]) = 4393045632 # 指向的是同一個內存對象因此內存地址相等 下同
i = 1 id(a[i]) = 4312613200 id(b[i]) = 4312613200
i = 2 id(a[i]) = 4312613232 id(b[i]) = 4312613232

copy模塊

在 python 裡面有一個自帶的包 copy ,主要是用於對象的拷貝,在這個模塊當中主要有兩個方法 copy.copy(x) 和 copy.deepcopy()。

copy.copy(x) 方法主要是用於淺拷貝,這個方法的含義對於列表來說和列表本身的 x.copy() 方法的意義是一樣的,都是進行淺拷貝。這個方法會構造一個新的 python 對象並且會將對象 x 當中所有的數據引用(指針)拷貝一份。

copy.deepcopy(x)  這個方法主要是對對象 x 進行深拷貝,這裡的深拷貝的含義是會構造一個新的對象,會遞歸的查看對象 x 當中的每一個對象,如果遞歸查看的對象是一個不可變對象將不會進行拷貝,如果查看到的對象是可變對象的話,將重新開辟一塊內存空間,將原來的在對象 x 當中的數據拷貝的新的內存當中。(關於可變和不可變對象我們將在下一個小節仔細分析)

根據上面的分析我們可以知道深拷貝的花費是比淺拷貝多的,尤其是當一個對象當中有很多子對象的時候,會花費很多時間和內存空間。

對於 python 對象來說進行深拷貝和淺拷貝的區別主要在於復合對象(對象當中有子對象,比如說列表,元祖、類的實例等等)。這一點主要是和下一小節的可變和不可變對象有關系。

可變和不可變對象與對象拷貝

在 python 當中主要有兩大類對象,可變對象和不可變對象,所謂可變對象就是對象的內容可以發生改變,不可變對象就是對象的內容不能夠發生改變。

  • 可變對象:比如說列表(list),字典(dict),集合(set),字節數組(bytearray),類的實例對象。
  • 不可變對象:整型(int),浮點型(float),復數(complex),字符串,元祖(tuple),不可變集合(frozenset),字節(bytes)。

看到這裡你可能會有疑問瞭,整數和字符串不是可以修改嗎?

a = 10
a = 100
a = "hello"
a = "world"

比如下面的代碼是正確的,並不會發生錯誤,但是事實上其實 a 指向的對象是發生瞭變化的,第一個對象指向整型或者字符串的時候,如果重新賦一個新的不同的整數或者字符串對象的話,python 會創建一個新的對象,我們可以使用下面的代碼進行驗證:

a = 10
print(f"{id(a) = }")
a = 100
print(f"{id(a) = }")
a = "hello"
print(f"{id(a) = }")
a = "world"
print(f"{id(a) = }")

上面的程序的輸出結果如下所示:

id(a) = 4365566480
id(a) = 4365569360
id(a) = 4424109232
id(a) = 4616350128

可以看到的是當重新賦值之後變量指向的內存對象是發生瞭變化的(因為內存地址發生瞭變化),這就是不可變對象,雖然可以對變量重新賦值,但是得到的是一個新對象並不是在原來的對象上進行修改的!

我們現在來看一下可變對象列表發生修改之後內存地址是怎麼發生變化的:

data = []
print(f"{id(data) = }")
data.append(1)
print(f"{id(data) = }")
data.append(1)
print(f"{id(data) = }")
data.append(1)
print(f"{id(data) = }")
data.append(1)
print(f"{id(data) = }")

上面的代碼輸出結果如下所示:

id(data) = 4614905664
id(data) = 4614905664
id(data) = 4614905664
id(data) = 4614905664
id(data) = 4614905664

從上面的輸出結果來看可以知道,當我們往列表當中加入新的數據之後(修改瞭列表),列表本身的地址並沒有發生變化,這就是可變對象。

我們在前面談到瞭深拷貝和淺拷貝,我們現在來分析一下下面的代碼:

data = [1, 2, 3]
data_copy = copy.copy(data)
data_deep = copy.deepcopy(data)
print(f"{id(data ) = } | {id(data_copy) = } | {id(data_deep) = }")
print(f"{id(data[0]) = } | {id(data_copy[0]) = } | {id(data_deep[0]) = }")
print(f"{id(data[1]) = } | {id(data_copy[1]) = } | {id(data_deep[1]) = }")
print(f"{id(data[2]) = } | {id(data_copy[2]) = } | {id(data_deep[2]) = }")

上面的代碼輸出結果如下所示:

id(data ) = 4620333952 | id(data_copy) = 4619860736 | id(data_deep) = 4621137024
id(data[0]) = 4365566192 | id(data_copy[0]) = 4365566192 | id(data_deep[0]) = 4365566192
id(data[1]) = 4365566224 | id(data_copy[1]) = 4365566224 | id(data_deep[1]) = 4365566224
id(data[2]) = 4365566256 | id(data_copy[2]) = 4365566256 | id(data_deep[2]) = 4365566256

看到這裡你肯定會非常疑惑,為什麼深拷貝和淺拷貝指向的內存對象是一樣的呢?前列我們可以理解,因為淺拷貝拷貝的是引用,因此他們指向的對象是同一個,但是為什麼深拷貝之後指向的內存對象和淺拷貝也是一樣的呢?這正是因為列表當中的數據是整型數據,他是一個不可變對象,如果對 data 或者 data_copy 指向的對象進行修改,那麼將會指向一個新的對象並不會直接修改原來的對象,因此對於不可變對象其實是不用開辟一塊新的內存空間在重新賦值的,因為這塊內存中的對象是不會發生改變的。

我們再來看一個可拷貝的對象:

data = [[1], [2], [3]]
data_copy = copy.copy(data)
data_deep = copy.deepcopy(data)
print(f"{id(data ) = } | {id(data_copy) = } | {id(data_deep) = }")
print(f"{id(data[0]) = } | {id(data_copy[0]) = } | {id(data_deep[0]) = }")
print(f"{id(data[1]) = } | {id(data_copy[1]) = } | {id(data_deep[1]) = }")
print(f"{id(data[2]) = } | {id(data_copy[2]) = } | {id(data_deep[2]) = }")

上面的代碼輸出結果如下所示:

id(data ) = 4619403712 | id(data_copy) = 4617239424 | id(data_deep) = 4620032640
id(data[0]) = 4620112640 | id(data_copy[0]) = 4620112640 | id(data_deep[0]) = 4620333952
id(data[1]) = 4619848128 | id(data_copy[1]) = 4619848128 | id(data_deep[1]) = 4621272448
id(data[2]) = 4620473280 | id(data_copy[2]) = 4620473280 | id(data_deep[2]) = 4621275840

從上面程序的輸出結果我們可以看到,當列表當中保存的是一個可變對象的時候,如果我們進行深拷貝將創建一個全新的對象(深拷貝的對象內存地址和淺拷貝的不一樣)。

代碼片段分析

經過上面的學習對於在本篇文章開頭提出的問題對於你來說應該是很簡單的,我們現在來分析一下這幾個代碼片段:

a = [1, 2, 3, 4]
b = a
print(f"{a = } \t|\t {b = }")
a[0] = 100
print(f"{a = } \t|\t {b = }")

這個很簡單啦,a 和 b 不同的變量指向同一個列表,a 中間的數據發生變化,那麼 b 的數據也會發生變化,輸出結果如下所示:

a = [1, 2, 3, 4]  |  b = [1, 2, 3, 4]
a = [100, 2, 3, 4]  |  b = [100, 2, 3, 4]
id(a) = 4614458816  |  id(b) = 4614458816

我們再來看一下第二個代碼片段

a = [1, 2, 3, 4]
b = a.copy()
print(f"{a = } \t|\t {b = }")
a[0] = 100
print(f"{a = } \t|\t {b = }")

因為 b 是 a 的一個淺拷貝,所以 a 和 b 指向的是不同的列表,但是列表當中數據的指向是相同的,但是由於整型數據是不可變數據,當a[0] 發生變化的時候,並不會修改原來的數據,而是會在內存當中創建一個新的整型數據,因此列表 b 的內容並不會發生變化。因此上面的代碼輸出結果如下所示:

a = [1, 2, 3, 4]  |  b = [1, 2, 3, 4]
a = [100, 2, 3, 4]  |  b = [1, 2, 3, 4]

再來看一下第三個片段:

a = [[1, 2, 3], 2, 3, 4]
b = a.copy()
print(f"{a = } \t|\t {b = }")
a[0][0] = 100
print(f"{a = } \t|\t {b = }")

這個和第二個片段的分析是相似的,但是 a[0] 是一個可變對象,因此進行數據修改的時候,a[0] 的指向沒有發生變化,因此 a 修改的內容會影響 b。

a = [[1, 2, 3], 2, 3, 4]  |  b = [[1, 2, 3], 2, 3, 4]
a = [[100, 2, 3], 2, 3, 4]  |  b = [[100, 2, 3], 2, 3, 4]

最後一個片段:

a = [[1, 2, 3], 2, 3, 4]
b = copy.deepcopy(a)
print(f"{a = } \t|\t {b = }")
a[0][0] = 100
print(f"{a = } \t|\t {b = }")

深拷貝會在內存當中重新創建一個和a[0]相同的對象,並且讓 b[0] 指向這個對象,因此修改 a[0],並不會影響 b[0],因此輸出結果如下所示:

a = [[1, 2, 3], 2, 3, 4]  |  b = [[1, 2, 3], 2, 3, 4]
a = [[100, 2, 3], 2, 3, 4]  |  b = [[1, 2, 3], 2, 3, 4]

撕開 Python 對象的神秘面紗

我們現在簡要看一下 Cpython 是如何實現 list 數據結構的,在 list 當中到底定義瞭一些什麼東西:

typedef struct {
    PyObject_VAR_HEAD
    /* Vector of pointers to list elements.  list[0] is ob_item[0], etc. */
    PyObject **ob_item;

    /* ob_item contains space for 'allocated' elements.  The number
     * currently in use is ob_size.
     * Invariants:
     *     0 <= ob_size <= allocated
     *     len(list) == ob_size
     *     ob_item == NULL implies ob_size == allocated == 0
     * list.sort() temporarily sets allocated to -1 to detect mutations.
     *
     * Items must normally not be NULL, except during construction when
     * the list is not yet visible outside the function that builds it.
     */
    Py_ssize_t allocated;
} PyListObject;

在上面定義的結構體當中 :

allocated 表示分配的內存空間的數量,也就是能夠存儲指針的數量,當所有的空間用完之後需要再次申請內存空間。

ob_item 指向內存當中真正存儲指向 python 對象指針的數組,比如說我們想得到列表當中第一個對象的指針的話就是 list->ob_item[0],如果要得到真正的數據的話就是 *(list->ob_item[0])。

PyObject_VAR_HEAD 是一個宏,會在結構體當中定一個子結構體,這個子結構體的定義如下:

typedef struct {
    PyObject ob_base;
    Py_ssize_t ob_size; /* Number of items in variable part */
} PyVarObject;

這裡我們不去談對象 PyObject 瞭,主要說一下 ob_size,他表示列表當中存儲瞭多少個數據,這個和 allocated 不一樣,allocated 表示 ob_item 指向的數組一共有多少個空間,ob_size 表示這個數組存儲瞭多少個數據 ob_size <= allocated。

在瞭解列表的結構體之後我們現在應該能夠理解之前的內存佈局瞭,所有的列表並不存儲真正的數據而是存儲指向這些數據的指針。

總結

在本篇文章當中主要給大傢介紹瞭 python 當中對象的拷貝和內存佈局,以及對對象內存地址的驗證,最後稍微介紹瞭一下 cpython 內部實現列表的結構體,幫助大傢深入理解列表對象的內存佈局。

到此這篇關於淺析Python的對象拷貝和內存佈局的文章就介紹到這瞭,更多相關Python對象拷貝 內存佈局內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: