學會迭代器設計模式,幫你大幅提升python性能

大傢好,我們的git專題已經更新結束瞭,所以開始繼續給大傢寫一點設計模式的內容。

今天給大傢介紹的設計模式非常簡單,叫做iterator,也就是迭代器模式。迭代器是Python語言當中一個非常重要的內容,借助迭代器我們可以很方便地實現很多復雜的功能。在深度學習當中,數據的獲取往往也是通過迭代器實現的。因此這部分的內容非常重要,推薦大傢一定要掌握。

簡單案例

在開始介紹設計模式之前,我們先來看一個簡單的需求。假設現在我們需要根據傳入的變量獲取每周的前幾天,比如說我們傳入3返回的就是[Mon, Tue, Wed],我們傳入5返回[Mon, Tue, Wed, Thu, Fri]。這個需求大傢應該都能理解,非常非常簡單。

如果用一個函數來實現的話,就是這樣:

def return_days(n):
    week = ['Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat', 'Sun']
    return week[:n]

你看三行代碼就實現瞭,在這個問題場景當中這樣寫當然是沒有問題。但假如我們把題目稍微變一變,這裡的week不是一個固定的數據,而是從上遊或者是某個文件當中讀取的。這裡的n也是一個很大的數,我們把這個函數改寫成這樣:

def get_data(n):
    data = []
    for i in range(n):
        data.append(get_from_upstream())
    return data

我們假設get_from_upstream這個函數當中實現瞭獲取數據的具體邏輯,那麼上面這一段函數有一個什麼問題?

有些同學會說這沒有問題啊,因為像是其他語言實現數據獲取的時候也都是這麼幹的。的確,像是Java等語言可能都是這麼幹的。但是其他語言這麼幹沒錯,不代表Python這麼幹也沒錯。因為我們沒有把Python的能力發揮到最大。

這裡有兩個問題,第一個問題是延遲,因為前面說瞭,n是一個很大的數。我們從上遊獲取數據,無論是通過網絡還是文件讀取,本質上都是IO操作,IO操作的延遲是非常大的。那麼我們把這n條數據全部搜集完可能需要很長的時間,導致下遊的漫長等待。第二個問題就是內存,因為我們存儲瞭這n條數據一起返回的,如果n很大,對於內存的開銷壓力也很大,如果機器內存不夠很有可能導致崩潰。

那怎麼解決呢?

其實解決的方法很簡單,如果對迭代器熟悉的話,會發現迭代器針對的恰恰是這兩個問題。我們把上面的邏輯改寫成迭代器實現即可,這也就是iterator模式。

iterator模式

iterator模式嚴格說起來其實隻是迭代器的一種應用,它非常巧妙地將迭代器與匿名函數結合在一起,裡面也沒有太多的門道可以說,我們把剛才的代碼改寫一下,細節都在代碼當中。

def get_data(n):
    for i in range(n):
  yield get_from_upstream()


data_10 = lambda: get_data(10)
data_100 = lambda: get_data(100)

# use
for d in data_10:
    print(d)

很簡單吧,但可能你要問瞭,我們既然寫出瞭get_data這個迭代器,那麼我們使用的時候直接for d in get_data(10)這樣用不就好瞭,為什麼中間要用匿名函數包一層呢?

道理也很簡單,如果這個數據是我們自己使用,當然是沒必要中間包一層的。但如果我們是傳給下遊使用的話,對於下遊來說它肯定是不希望考慮上遊太多的細節的,越簡單越好。所以我們直接丟一個包裝好的迭代器過去,下遊直接call即可。否則的話,下遊還需要感知get_data這個函數傳入的參數,顯然是不夠合理的。

以上就是學會迭代器設計模式,幫你大幅提升python性能的詳細內容,更多關於python 迭代器設計模式的資料請關註WalkonNet其它相關文章!

推薦閱讀: