Python collections模塊的使用技巧

一般來講,python的collections是用於存儲數據集合(比如列表list, 字典dict, 元組tuple和集合set)的容器。這些容器內置在Python中,可以直接使用。該collections模塊提供瞭額外的,高性能的數據類型,可以增強你的代碼,使事情變得更清潔,更容易。

讓我們看一看關於集合模塊最受歡迎的數據類型以及如何使用它們的教程!

Counter

Counter()是字典對象的子類。Counter()可接收一個可迭代遍歷的對象(例如字符串、列表或元組)作為參數,並返回計數器字典。字典的鍵將是可遍歷對象中的唯一元素,每個鍵的值將是可迭代對象中的每個唯一元素對應的計數。

首先,讓我們先從collections模塊導入Counter這個數據類型:

from collections import Counter

要創建Counter對象,就像將其分配給其他任何對象類一樣,將其分配給變量。您唯一要確保的是傳遞給它的參數是可迭代的對象。

lst = [1, 2, 3, 3, 2, 1, 1, 1, 2, 2, 3, 1, 2, 1, 1]
counter = Counter(lst)

我們可以使用簡單的打印功能比如print(counter)來查看我們獲得的新的對象,它看起來像個字典,如下所示:

Conter ({1:7,2:2:5,3:3})

您可以使用鍵值key訪問任何計數器條目,如下所示。這與從標準Python字典中提取元素的方式完全相同。

lst = [1, 2, 3, 3, 2, 1, 1, 1, 2, 2, 3, 1, 2, 1, 1]
counter = Counter(lst)
print(counter[1]) # 返回7。1的數量有7個

most_common()函數

到目前為止,Counter對象最有用的功能是most_common()函數。將其應用於Counter對象時,它將返回N個最常見元素及其計數的列表,按從最常見到最不常見的順序排列。

lst = [1, 2, 3, 3, 2, 1, 1, 1, 2, 2, 3, 1, 2, 1, 1]
counter = Counter(lst)
print(counter.most_common(2)) # 返回最常見兩個元素及其計數

上面的代碼打印出以下元組列表:

[(1,7),(2,5)]

每個元組的第一個元素是列表中的唯一原始,每個元組的第二個元素是計數。這是一種快速簡便的方法,實現比如“獲取列表中最常見的3個元素及其計數”的功能。

要瞭解有關Counter功能的更多信息,請查閱官方文檔。

defaultdict

defaultdict工作起來完全像一個普通的Python字典,但它有額外的獎勵。當您試圖訪問一個不存在的鍵,它不會引發錯誤,而是使用不存在的鍵創建新的key,其對應的默認值是根據創建defaultdict對象時作為參數傳遞的數據類型自動設置的。請看下面的代碼作為示例。

from collections import defaultdict

names_dict = defaultdict(int)
names_dict["Bob"] = 1
names_dict["Katie"] = 2
sara_number = names_dict["Sara"]
print(names_dict)

在上面的示例中,int作為默認初始化值傳遞給我們的defaultdict對象。接下來,為每個鍵”Bob”和”Katie”賦值。但是在最後一行,我們嘗試訪問一個尚未定義的鍵,即“ Sara”的鍵。

在普通字典中,這將引發錯誤。使用defaultdict後不再報錯,而是自動以”Sara”創建一個新鍵key,其初始化值為0,是因為我們指定瞭int數據類型作為初始化值。

因此,最後一行打印出具有所有3個名稱和相應值的字典。

defaultdict(<class 'int'>, {'Bob': 1, 'Katie': 2, 'Sara': 0})

如果要將設置列表類型數據做為一個key的初始化值,我們隻需設置names_dict = defaultdict(list),此時“Sara”將使用空列表初始化[]。此時打印結果如下所示:

defaultdict(<class 'int'>, {'Bob': 1, 'Katie': 2, 'Sara': []})

要瞭解有關defaultdict功能的更多信息,請查閱官方文檔。

deque

deque隊列是在計算機科學裡最基本的數據結構,遵循先入先出(FIFO)的原理。簡單來說,這意味著添加到隊列中的第一個對象也必須是要刪除的第一個對象。我們隻能在隊列的前面插入內容,而隻能從隊列的後面刪除內容,而隊列中間沒有任何動作。

collections模塊提供的deque對象是能實現隊列數據結構的優化版本。該功能的主要特色是能夠保持隊列的大小,即如果將隊列的最大長度設置為10,則將deque根據FIFO原理添加和刪除元素以保持最大長度始終為10。這是到目前為止,Python中隊列的最佳實現。

讓我們從一個例子開始。我們將創建一個deque對象,然後使用從1到10的整數進行初始化。

from collections import deque

my_queue = deque(maxlen=10)

for i in range(10):
    my_queue.append(i+1)

print(my_queue)

在上面的代碼中,我們首先初始化deque,指定我們希望它始終保持最大長度為10。其次,當我們通過循環將值插入到隊列中時。註意,填充隊列的功能與使用常規Python列表的方式完全相同。最後,我們打印出結果。

deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 10], maxlen=10)

由於隊列中有一個maxlen=10,並且循環中添加瞭10個元素,因此隊列中包含瞭從1到10的所有數字。現在,讓我們看看添加更多數字時會發生什麼。

for i in range(10, 15):
    my_queue.append(i+1)

print(my_queue)

在上面的代碼中,我們在隊列中添加瞭另外5個元素,數字從11到15。但是我們的隊列隻有一個,且maxlen=10。因此必須刪除一些元素,才能插入新的元素。由於隊列必須遵循FIFO原則,因此它將刪除最先插入隊列中的前5個元素,即[1、2、3、4、5]。打印語句的結果如下:

deque([6, 7, 8, 9, 10, 11, 12, 13, 14, 15], maxlen=10)

要瞭解有關該功能的更多信息deque,請查閱官方文檔。

namedtuple

在Python中創建常規元組時,其元素是通用的且未命名,這迫使您記住每個元組元素的確切索引。可以使用具名元組namedtuple來解決這個問題。

該namedtuple()返回與用於所述元組中的每個位置和一個通用名固定名稱的元組namedtuple對象。要使用namedtuple,請先為其創建一個模板。下面的代碼創建一個namedtuple名為Person的模板,其屬性為name,age和job。

from collections import namedtuple

Person = namedtuple('Person', 'name age job')

創建模板後,您可以使用它來創建namedtuple對象。讓我們使用Person模板為2個人創建2個namedtuple對象,並打印它們。

Person = namedtuple('Person', 'name age job')

Mike = Person(name='Mike', age=30, job='Data Scientist')
Kate = Person(name="Kate", age=28, job='Project Manager')

print(Mike)
print(Kate)

上面的代碼非常簡單。我們使用namedtuple 模板的所有屬性來初始化“人員” ,以後可以直接使用Mike或Kate使用元組元素,而不用再使用索引瞭。上面的打印語句將給出以下結果:

Person(name='Mike', age=30, job='Data Scientist')
Person(name='Kate', age=28, job='Project Manager')

因此,namedtuple能夠更容易地使用,更合適元組對象的組織,可讀性也更強。

要瞭解更多關於namedtuple的功能,請查閱官方文檔。

OrderedDict

由於原文未介紹collections模塊中的有序字典結構而OrderedDict又非常重要,這部分由大江狗手動新增。

在Python 3.5及以前之前版本,Python的字典dict是無序的。如果先鍵值A先插入字典,鍵值B後插入字典,但是當你打印字典的Keys列表時,你會發現B可能在A的前面。對於無序字典,每次打印字典時每次顯示元素的順序都不一樣。如果你的Python版本較老,需要借助collections模塊提供的OrderedDict實現有序字典。

OrderedDict類似於正常的字典,隻是它記住瞭元素插入的順序。當對有序的詞字典上迭代時,返回元素的順序是按第一次添加元素的順序進行。當元素刪除時,排好序的詞典保持著排序的順序;但是當新元素添加時,就會被添加到末尾。

OrderedDict實現方式如下:

dd = {'banana': 3, 'apple':4, 'pear': 1, 'orange': 2}
#按key排序
od_by_key = collections.OrderedDict(sorted(dd.items(), key=lambda t: t[0]))
print(od_by_key)
#按照value排序
od_by_value = collections.OrderedDict(sorted(dd.items(),key=lambda t:t[1]))
print(od_by_value)
#輸出
OrderedDict([('apple', 4), ('banana', 3), ('orange', 2), ('pear', 1)])
OrderedDict([('pear', 1), ('orange', 2), ('banana', 3), ('apple', 4)])

Python collections模塊的知識,你學到瞭嗎?

以上就是Python collections模塊的使用的詳細內容,更多關於Python collections模塊的資料請關註WalkonNet其它相關文章!

推薦閱讀: