Python帶你從淺入深探究Tuple(基礎篇)

元組

Python中的元組容器序列(tuple)與列表容器序列(list)具有極大的相似之處,因此也常被稱為不可變的列表。

但是兩者之間也有很多的差距,元組側重於數據的展示,而列表側重於數據的存儲與操作。

它們非常相似,雖然都可以存儲任意類型的數據,但是一個元組定義好之後就不能夠再進行修改。

元組特性

元組的特點:

  • 元組屬於容器序列
  • 元組屬於不可變類型
  • 元組底層由順序存儲組成,而順序存儲是線性結構的一種

基本聲明

以下是使用類實例化的形式進行對象聲明:

tup = tuple((1, 2, 3, 4, 5))
print("值:%r,類型:%r" % (tup, type(tup)))

# 值:(1, 2, 3, 4, 5),類型:<class 'tuple'>

也可以選擇使用更方便的字面量形式進行對象聲明,使用逗號對數據項之間進行分割:

tup = 1, 2, 3, 4, 5
print("值:%r,類型:%r" % (tup, type(tup)))

# 值:(1, 2, 3, 4, 5),類型:<class 'tuple'>

為瞭美觀,我們一般會在兩側加上(),但是要確定一點,元組定義是逗號分隔的數據項,而並非是()包裹的數據項:

tup = (1, 2, 3, 4, 5)
print("值:%r,類型:%r" % (tup, type(tup)))

# 值:(1, 2, 3, 4, 5),類型:<class 'tuple'>

多維元組

當一個元組中嵌套另一個元組,該元組就可以稱為多維元組。

如下,定義一個2維元組:

tup = (1, 2, 3, 4, 5)
print("值:%r,類型:%r" % (tup, type(tup)))

# 值:(1, 2, 3, 4, 5),類型:<class 'tuple'>

續行操作

在Python中,元組中的數據項如果過多,可能會導致整個元組太長,太長的元組是不符合PEP8規范的。

每行最大的字符數不可超過79,文檔字符或者註釋每行不可超過72

Python雖然提供瞭續行符\,但是在元組中可以忽略續行符,如下所示:

tup = (1, 2, ("三", "四"))
print("值:%r,類型:%r" % (tup, type(tup)))

# 值:(1, 2, ('三', '四')),類型:<class 'tuple'>

類型轉換

元組支持與佈爾型、字符串、列表、以及集合類型進行類型轉換:

tup = (1, 2, 3)
bTup = bool(tup)    # 佈爾類型
strTup = str(tup)   # 字符串類型
liTup = list(tup)   # 列表類型
setTup = set(tup)   # 集合類型

print("值:%r,類型:%r" % (bTup, type(bTup)))
print("值:%r,類型:%r" % (strTup, type(strTup)))
print("值:%r,類型:%r" % (liTup, type(liTup)))
print("值:%r,類型:%r" % (setTup, type(setTup)))

# 值:True,類型:<class 'bool'>
# 值:'(1, 2, 3)',類型:<class 'str'>
# 值:[1, 2, 3],類型:<class 'list'>
# 值:{1, 2, 3},類型:<class 'set'>

如果一個2維元組遵循一定的規律,那麼也可以將其轉換為字典類型:

tup = (("k1", "v1"), ("k2", "v2"), ("k3", "v3"))
dictTuple = dict(tup)

print("值:%r,類型:%r" % (dictTuple, type(dictTuple)))

# 值:{'k1': 'v1', 'k2': 'v2', 'k3': 'v3'},類型:<class 'dict'>

索引操作

元組的索引操作僅支持獲取數據項。

其他的任意索引操作均不被支持。

使用方法參照列表的索引切片一節。

絕對引用

元組擁有絕對引用的特性,無論是深拷貝還是淺拷貝,都不會獲得其副本,而是直接對源對象進行引用。

但是列表沒有絕對引用的特性,代碼驗證如下:

>>> import copy
>>> # 列表的深淺拷貝均創建新列表...
>>> oldLi = [1, 2, 3]
>>> id(oldLi)
4542649096
>>> li1 = copy.copy(oldLi)
>>> id(li1)
4542648840
>>> li2 = copy.deepcopy(oldLi)
>>> id(li2)
4542651208
>>> # 元組的深淺拷貝始終引用老元組
>>> oldTup = (1, 2, 3)
>>> id(oldTup)
4542652920
>>> tup1 = copy.copy(oldTup)
>>> id(tup1)
4542652920
>>> tup2 = copy.deepcopy(oldTup)
>>> id(tup2)
4542652920

Python為何要這樣設計?其實仔細想想不難發現,元組不能對其進行操作,僅能獲取數據項。

那麼也就沒有生成多個副本提供給開發人員操作的必要瞭,因為你修改不瞭元組,索性直接使用絕對引用策略。

值得註意的一點:[:]也是淺拷貝,故對元組來說屬於絕對引用范疇。

元組的陷阱

Leonardo Rochael在2013年的Python巴西會議提出瞭一個非常具有思考意義的問題。

我們先來看一下:

>>> t = (1, 2, [30, 40])
>>> t[-1] += [50, 60]
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: 'tuple' object does not support item assignment

現在,t到底會發生下面4種情況中的哪一種?

  1. t 變成 (1, 2, [30, 40, 50, 60])。
  2. 因為 tuple 不支持對它的數據項賦值,所以會拋出 TypeError 異常。
  3. 以上兩個都不是。a 和 b 都是對的。

正確答案是4,t確實會變成 (1, 2, [30, 40, 50, 60]),但同時元組是不可變類型故會引發TypeError異常的出現。

>>> t
(1, 2, [30, 40, 50, 60])

如果是使用extend()對t[-1]的列表進行數據項的增加,則答案會變成1。

我當初在看瞭這個問題後,暗自告訴自己瞭2件事情:

  • list的數據項增加盡量不要使用+=,而應該使用append()或者extend()

Ps:我也不知道自己為什麼會產生這樣的想法,但這個想法確實伴隨我很長時間,直至現在

  • tuple中不要存放可變類型的數據,如list、set、dict等..

元組更多的作用是展示數據,而不是操作數據。

舉個例子,當用戶根據某個操作獲取到瞭眾多數據項之後,你可以將這些數據項做出元組並返回。

用戶對被返回的原對象隻能看,不能修改,若想修改則必須創建新其他類型對象。

解構方法

元組的解構方法與列表使用相同。

使用方法參照列表的解構方法一節。

常用方法

方法一覽

常用的list方法一覽表:

方法名 返回值 描述
count() integer 返回數據項在T中出現的次數
index() integer 返回第一個數據項在T中出現位置的索引,若值不存在,則拋出ValueError

基礎公用函數:

函數名 返回值 描述
len() integer 返回容器中的項目數
enumerate() iterator for index, value of iterable 返回一個可迭代對象,其中以小元組的形式包裹數據項與正向索引的對應關系
reversed() 詳情參見函數章節
sorted() 詳情參見函數章節

獲取長度

使用len()方法來獲取元組的長度。

返回int類型的值。

tup = ("A", "B", "C", "D", "E", "F", "G")

print(len(tup))

# 7

Python在對內置的數據類型使用len()方法時,實際上是會直接的從PyVarObject結構體中獲取ob_size屬性,這是一種非常高效的策略。

PyVarObject是表示內存中長度可變的內置對象的C語言結構體。

直接讀取這個值比調用一個方法要快很多。

統計次數

使用count()方法統計數據項在該元組中出現的次數。

返回int:

tup = ("A", "B", "C", "D", "E", "F", "G", "A")

aInTupCount = tup.count("A")

print(aInTupCount)

# 2

查找位置

使用index()方法找到數據項在當前元組中首次出現的位置索引值,如數據項不存在則拋出異常。

返回int。

tup = ("A", "B", "C", "D", "E", "F", "G", "A")

aInTupIndex = tup.index("A")

print(aInTupIndex)

# 0

底層探究

內存開辟

Python內部實現中,列表和元組還是有一定的差別的。

元組在創建對象申請內存的時候,內存空間大小便進行瞭固定,後續不可更改(如果是傳入瞭一個可迭代對象,例如tupe(range(100)),這種情況會進行擴容與縮容,下面的章節將進行探討研究)。

而列表在創建對象申請內存的時候,內存空間大小不是固定的,如果後續對其新增或刪除數據項,列表會進行擴容或者縮容機制。

元組創建

空元組

若創建一個空元組,會直接進行創建,然後將這個空元組丟到緩存free_list中。

元組的free_list最多能緩存 20 * 2000 個元組,這個在下面會進行講解。

如圖所示:

元組轉元組

這樣的代碼會進行元組轉元組:

tup = tuple((1, 2, 3))

首先內部本身就是一個元組(1, 2, 3),所以會直接將內部的這個元組拿出來並返回引用,並不會再次創建。

代碼驗證:

>>> oldTup = (1, 2, 3)
>>> id(oldTup)
4384908128
>>> newTup = tuple(oldTup)
>>> id(newTup)
4384908128
>>>

列表轉元組

列表轉元組會將列表中的每一個數據項都拿出來,然後放入至元組中:

tup = tuple([1, 2, 3])

所以你會發現,列表和元組中的數據項引用都是相同的:

>>> li1 = ["A", "B", "C"]
>>> tup = tuple(li1)
>>> print(id(li1[0]))
4383760656
>>> print(id(tup[0]))
4383760656
>>>

可迭代對象轉元組

可迭代對象是沒有長度這一概念的,如果是可迭代對象轉換為元組,會先對可迭代對象的長度做一個猜想。

並且根據這個猜想,為元組開辟一片內存空間,用於存放可迭代對象的數據項。

然後內部會獲取可迭代對象的迭代器,對其進行遍歷操作,拿出數據項後放至元組中。

如果猜想的長度太小,會導致元組內部的內存不夠存放下所有的迭代器數據項,此時該元組會進行內部的擴容機制,直至可迭代對象中的數據項全部被添加至元組中。

rangeObject = range(1, 101)
tup = tuple(rangeObject)

// 假如猜想的是9
// 第一步:+ 10 
// 第二步:+ (原長度+10) * 0.25
// 其實,就是增加【原長度*0.25 + 2.5】

如果猜想的長度太大,而實際上迭代器中的數據量偏少,則需要對該元組進行縮容。

切片取值

對元組進行切片取值的時候,會開辟一個新元組用於存放切片後得到的數據項。

tup = (1, 2, 3)
newSliceTup = tup[0:2]

當然,如果是[:]的操作,則參照絕對引用,直接返回被切片的元組引用。

代碼驗證:

>>> id(tup)
4384908416
>>> newSliceTup = tup[0:2]
>>> id(newSliceTup)
4384904392

緩存機制

free_list緩存

元組的緩存機制和列表的緩存機制不同。

元組的free_list會緩存0 – 19長度的共20種元組,其中每一種長度的元組通過單向鏈表橫向擴展緩存至2000個,如下圖所示:

當每一次的del操作有數據項的元組時,都會將該元組數據項清空並掛載至free_list單向鏈表的頭部的位置。

del 元組1
del 元組2
del 元組3

如下圖所示:

當要創建一個元組時,會通過創建元組的長度,從free_list單向鏈表的頭部取出一個元組,然後將數據項存放進去。

前提是free_list單向鏈表中緩存的有該長度的元組。

tup = (1, 2, 3)

空元組與非空元組的緩存

空元組的緩存是一經創建就緩存到free_list單向鏈表中。

而非空元組的緩存必須是del操作後才緩存到free_list單向鏈表中。

空元組的創建

第一次創建空元組後,空元組會緩存至free_list單向鏈表中。

以後的每一次空元組創建,返回的其實都是同一個引用,也就是說空元組在free_list單向鏈表中即使被引用瞭也不會被銷毀。

>>> t1 = ()
>>> id(t1)
4511088712
>>> t2 = ()
>>> id(t2)
4511088712

非空元組的創建

當free_list單向鏈表中有相同長度的元組時,會進行引用並刪除。

這個在上圖中已經示例過瞭,就是這個:

代碼示例:

$ python3

Python 3.6.8 (v3.6.8:3c6b436a57, Dec 24 2018, 02:04:31)
[GCC 4.2.1 Compatible Apple LLVM 6.0 (clang-600.0.57)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> v1 = (None, None, None)
>>> id(v1)
4384907696
>>> v2 = (None, None, None)
>>> id(v2)
4384908056
>>> del v1
>>> del v2   # ①
>>> v3 = (None, None, None)
>>> id(v3)   # ②
4384908056
>>> v4 = (None, None, None)
>>> id(v4)   # ③
4384907696
>>>

①:free_list num_free=3 單向鏈表結構:v2 —> v1

②:創建瞭v3,拿出v2的空元組,填入v3數據項,故v2和v3的id值相等,證明引用同一個元組,此時free_list num_free=3 單向鏈表結構為:—> v1

③:創建瞭v4,拿出v1的空元組,填入v4數據項,故v1和v4的id值相等,證明引用同一個元組

tupleobject.c源碼

官網參考:點我跳轉

源碼一覽:點我跳轉

以下是截取瞭一些關鍵性源代碼,並且做上瞭中文註釋,方便查閱。

每一個元組都有幾個關鍵性的屬性:

Py_ssize_t ob_refcnt;     // 引用計數器
Py_ssize_t ob_size;       // 數據項個數,即元組大小
PyObject *ob_item[1];     // 存儲元組中的數據項 [指針, ]

關於緩存free_list的屬性:

PyTuple_MAXSAVESIZE     // 相當於圖中的 free_num ,最大20,即縱向擴展的緩存元組長度
PyTuple_MAXFREELIST     // 圖中 free_list 的橫向擴展緩存列表個數,最大2000

創建元組

空元組

PyObject *
PyTuple_New(Py_ssize_t size)
{
    PyTupleObject *op;
    // 緩存相關
    Py_ssize_t i;
    
    // 元組的大小不能小於0
    if (size < 0) {
        PyErr_BadInternalCall();
        return NULL;
    }
#if PyTuple_MAXSAVESIZE > 0

    // 創建空元組,優先從緩存中獲取
    // size = 0 表示這是一個空元組,從free_list[0]中獲取空元組
    if (size == 0 && free_list[0]) {
        // op就是空元組
        op = free_list[0];
        // 新增空元組引用計數器 + 1
        Py_INCREF(op);
#ifdef COUNT_ALLOCS
        tuple_zero_allocs++;
#endif
        // 返回空元組的指針
        return (PyObject *) op;
    }
    
    // 如果創建的不是空元組,且這個創建的元組數據項個數小於20,並且free_list[size]不等於空,表示有緩存
    // 則從緩存中去獲取,不再重新開辟內存
    if (size < PyTuple_MAXSAVESIZE && (op = free_list[size]) != NULL) {
        // 拿出元組
        free_list[size] = (PyTupleObject *) op->ob_item[0];
        // num_free減1
        numfree[size]--;
#ifdef COUNT_ALLOCS
        fast_tuple_allocs++;
#endif
        /* Inline PyObject_InitVar */
        // 初始化,定義這個元組的長度為數據項個數
#ifdef Py_TRACE_REFS
        Py_SIZE(op) = size;
        // 定義類型為 tuple
        Py_TYPE(op) = &PyTuple_Type;
#endif
        // 增加一次新的引用
        _Py_NewReference((PyObject *)op);
    }
    
    // 如果是空元組
    else
#endif
    {
        // 檢查內存情況,是否充足
        /* Check for overflow */
        if ((size_t)size > ((size_t)PY_SSIZE_T_MAX - sizeof(PyTupleObject) -
                    sizeof(PyObject *)) / sizeof(PyObject *)) {
            return PyErr_NoMemory();
        }
        // 開辟內存,並獲得一個元組:op
        op = PyObject_GC_NewVar(PyTupleObject, &PyTuple_Type, size);
        if (op == NULL)
            return NULL;
    }
    
    // 空元組的每一個槽位都是NULL
    for (i=0; i < size; i++)
        op->ob_item[i] = NULL;
        
#if PyTuple_MAXSAVESIZE > 0
   // 緩存空元組
    if (size == 0) {
        free_list[0] = op;
        ++numfree[0];
        Py_INCREF(op);          /* extra INCREF so that this is never freed */
    }
#endif
#ifdef SHOW_TRACK_COUNT
    count_tracked++;
#endif

    // 將元組加入到GC機制中,用於內存管理
    _PyObject_GC_TRACK(op);
    return (PyObject *) op;
}

可迭代對象轉元組

這個不在tupleobject.c源碼中,而是在abstract.c源碼中。

官網參考:點我跳轉

源碼一覽:點我跳轉

PyObject *
PySequence_Tuple(PyObject *v)
{
    PyObject *it;  /* iter(v) */
    Py_ssize_t n;             /* guess for result tuple size */
    PyObject *result = NULL;
    Py_ssize_t j;

    if (v == NULL) {
        return null_error();
    }

    /* Special-case the common tuple and list cases, for efficiency. */
    // 如果是元組轉換元組,如 tup = (1, 2, 3) 或者 tup = ((1, 2, 3))直接返回內存地址
    if (PyTuple_CheckExact(v)) {
        Py_INCREF(v);
        return v;
    }
    
    // 如果是列表轉換元組,則執行PyList_AsTuple(),將列表轉換為元組
    // 如 tup = ([1, 2, 3])
    if (PyList_CheckExact(v))
        return PyList_AsTuple(v);

    /* Get iterator. */
    // 獲取迭代器, tup = (range(1, 4).__iter__())
 
    it = PyObject_GetIter(v);
    if (it == NULL)
        return NULL;

    /* Guess result size and allocate space. */
    // 猜想迭代器長度,也就是猜一下有多少個數據項
    n = PyObject_LengthHint(v, 10);
    if (n == -1)
        goto Fail;
        
    // 根據猜想的迭代器長度,進行元組的內存開辟
    result = PyTuple_New(n);
    if (result == NULL)
        goto Fail;

    /* Fill the tuple. */
    // 將迭代器中每個數據項添加至元組中
    for (j = 0; ; ++j) {
        PyObject *item = PyIter_Next(it);
        if (item == NULL) {
            if (PyErr_Occurred())
                goto Fail;
            break;
        }
        
        //如果迭代器中數據項比猜想的多,則證明開辟內存不足需要需要進行擴容
        if (j >= n) {
            size_t newn = (size_t)n;
            /* The over-allocation strategy can grow a bit faster
               than for lists because unlike lists the
               over-allocation isn't permanent -- we reclaim
               the excess before the end of this routine.
               So, grow by ten and then add 25%.
            */
            
            // 假如猜想的是9
            // 第一步:+ 10 
            // 第二步:+ (原長度+10) * 0.25
            // 其實,就是增加【原長度*0.25 + 2.5】
            
            newn += 10u;
            newn += newn >> 2;
            
            // 判斷是否超過瞭元組的數據項個數限制(sys.maxsize)
            if (newn > PY_SSIZE_T_MAX) {
                /* Check for overflow */
                PyErr_NoMemory();
                Py_DECREF(item);
                goto Fail;
            }
            n = (Py_ssize_t)newn;
            // 擴容機制
            if (_PyTuple_Resize(&result, n) != 0) {
                Py_DECREF(item);
                goto Fail;
            }
        }
        
        // 將數據項放入元組之中
        PyTuple_SET_ITEM(result, j, item);
    }

    /* Cut tuple back if guess was too large. */
    
    // 如果猜想的數據項太多,而實際上迭代器中的數據量偏少
    // 則需要對該元組進行縮容
    if (j < n &&
        _PyTuple_Resize(&result, j) != 0)
        goto Fail;

    Py_DECREF(it);
    return result;

Fail:
    Py_XDECREF(result);
    Py_DECREF(it);
    return NULL;
}

列表轉元組

這個不在tupleobject.c源碼中,而是在listobject.c源碼中。

官網參考:點我跳轉

源碼一覽:點我跳轉

PyObject *
PyList_AsTuple(PyObject *v)
{
    PyObject *w;
    PyObject **p, **q;
    Py_ssize_t n;
    // 例如:tup = ([1, 2, 3])
    
    // 進行列表的驗證
    if (v == NULL || !PyList_Check(v)) {
        PyErr_BadInternalCall();
        return NULL;
    }
    
    // 獲取大小,即數據項個數
    n = Py_SIZE(v);
    // 開辟內存
    w = PyTuple_New(n);
    
    // 如果是空元組
    if (w == NULL)
        return NULL;
        
    // 執行遷徙操作
    p = ((PyTupleObject *)w)->ob_item;
    q = ((PyListObject *)v)->ob_item;
    
    // 將列表中數據項的引用,也給元組進行引用
    // 這樣列表中數據項和元組中的數據項都引用同1個對象
    while (--n >= 0) {
        // 數據項引用計數 + 1
        Py_INCREF(*q);
        *p = *q;
        p++;
        q++;
    }
    
    // 返回元組
    return w;
}

切片取值

PyObject *
PyTuple_GetSlice(PyObject *op, Py_ssize_t i, Py_ssize_t j)
// 切片會觸發該方法
{
    // 如果對空元組進行切片,則會拋出異常
    if (op == NULL || !PyTuple_Check(op)) {
        PyErr_BadInternalCall();
        return NULL;
    }
    // 內部的具體實現方法
    return tupleslice((PyTupleObject *)op, i, j);
}

static PyObject *
tupleslice(PyTupleObject *a, Py_ssize_t ilow,
           Py_ssize_t ihigh)
{
    PyTupleObject *np;
    PyObject **src, **dest;
    Py_ssize_t i;
    Py_ssize_t len;
    
    // 計算索引位置
    if (ilow < 0)
        ilow = 0;
    if (ihigh > Py_SIZE(a))
        ihigh = Py_SIZE(a);
    if (ihigh < ilow)
        ihigh = ilow;
        
    // 如果是[:]的操作,則直接返回源元組對象a的指針,即絕對引用
    if (ilow == 0 && ihigh == Py_SIZE(a) && PyTuple_CheckExact(a)) {
        Py_INCREF(a);
        return (PyObject *)a;
    }
    
    // 初始化新的切片對象元組長度
    len = ihigh - ilow;
    
    // 開始切片,創建瞭一個新元組np
    np = (PyTupleObject *)PyTuple_New(len);
    if (np == NULL)
        return NULL;
    src = a->ob_item + ilow;
    dest = np->ob_item;
    
    // 對源元組中的數據項的引用計數+1
    for (i = 0; i < len; i++) {
        PyObject *v = src[i];
        Py_INCREF(v);
        dest[i] = v;
    }
    
    // 返回切片對象新元組np的引用
    return (PyObject *)np;
}

緩存相關

static void
tupledealloc(PyTupleObject *op)
{
    Py_ssize_t i;
    Py_ssize_t len =  Py_SIZE(op);
    PyObject_GC_UnTrack(op);
    Py_TRASHCAN_SAFE_BEGIN(op)
    
    // 如果元組的長度大於0,則不是一個非空元組
    if (len > 0) {
        i = len;
        // 將內部的數據項引用計數都 - 1
        while (--i >= 0)
            Py_XDECREF(op->ob_item[i]);
#if PyTuple_MAXSAVESIZE > 0
        
        // 準備緩存,判斷num_free是否小於20,並且單向鏈表中的已緩存元組個數小於2000
        if (len < PyTuple_MAXSAVESIZE &&
            numfree[len] < PyTuple_MAXFREELIST &&
            Py_TYPE(op) == &PyTuple_Type)
        {
            // 添加至鏈表頭部
            op->ob_item[0] = (PyObject *) free_list[len];
            // 將num_free + 1
            numfree[len]++;
            free_list[len] = op;
            goto done; /* return */
        }
#endif
    }
    // 內存中進行銷毀
    Py_TYPE(op)->tp_free((PyObject *)op);
done:
    Py_TRASHCAN_SAFE_END(op)
}

以上就是老Python帶你從淺入深探究Tuple的詳細內容,更多關於Python Tuple的資料請關註WalkonNet其它相關文章!

推薦閱讀: