Python技巧匿名函數、回調函數和高階函數

1、定義匿名或內聯函數

如果我們想提供一個短小的回調函數供sort()這樣的函數用,但不想用def這樣的語句編寫一個單行的函數,我們可以借助lambda表達式來編寫“內聯”式的函數。

如下圖所示:

add = lambda x, y: x + y
print(add(2, 3)) # 5
print(add("hello", "world!")) # helloworld


可以看到,這裡用到的lambda表達式和普通的函數定義有著相同的功能。
lambda表達式常常做為回調函數使用,有在排序以及對數據進行預處理時有許多用武之地,

如下所示:

names = [ 'David Beazley', 'Brian Jones', 'Reymond Hettinger', 'Ned Batchelder']
sorted_names = sorted(names, key=lambda name: name.split()[-1].lower())
print(sorted_names)
# ['Ned Batchelder', 'David Beazley', 'Reymond Hettinger', 'Brian Jones']


lambda雖然靈活易用,但是局限性也大,相當於其函數體中隻能定義一條語句,不能執行條件分支、迭代、異常處理等操作。

2、在匿名函數中綁定變量的值

現在我們想在匿名函數定義時完成對特定變量(一般是常量)的綁定,以便後期使用。

如果我們這樣寫:

x = 10
a = lambda y: x + y 
x = 20
b = lambda y: x + y


然後計算a(10)和b(10)。你可能希望結果是20和30,然而實際程序的運行結果會出人意料:結果是30和30。
這個問題的關鍵在於lambda表達式中的x是個自由變量(未綁定到本地作用域的變量),在運行時綁定而不是定義的時候綁定(其實普通函數中使用自由變量同理),而這裡執行a(10)的時候x已經變成瞭20,故最終a(10)的值為30。如果希望匿名函數在定義的時候綁定變量,而之後綁定值不再變化,那我們可以將想要綁定的變量做為默認參數,

如下所示:

x = 10
a = lambda y, x=x: x + y
x = 20
b = lambda y, x=x: x + y
print(a(10)) # 20
print(b(10)) # 30


上面我們提到的這個陷阱常見於一些對lambda函數過於“聰明”的應用中。比如我們想用列表推導式來創建一個列表的lambda函數並期望lambda函數能記住迭代變量。

funcs = [lambda x: x + n for n in range(5)]
for f in funcs:
    print(f(0))
# 4
# 4
# 4
# 4
# 4


可以看到與我們期望的不同,所有lambda函數都認為n是4。

如上所述,我們修改成以下代碼即可:

funcs = [lambda x, n=n: x + n for n in range(5)]
for f in funcs:
    print(f(0))
# 0
# 1
# 2
# 3
# 4


3、讓帶有n個參數的可調用對象以較少的參數調用

假設我們現在有個n個參數的函數做為回調函數使用,但這個函數需要的參數過多,而回調函數隻能有個參數。如果需要減少函數的參數數量,需要時用functools包。functools這個包內的函數全部為高階函數。高階函數即參數或(和)返回值為其他函數的函數。通常來說,此模塊的功能適用於所有可調用對象。

比如functools.partial()就是一個高階函數, 它的原型如下:

functools.partial(func, /, *args, **keywords)


它接受一個func函數做為參數,並且它會返回一個新的newfunc對象,這個新的newfunc對象已經附帶瞭位置參數args和關鍵字參數keywords,之後在調用newfunc時就可以不用再傳已經設定好的參數瞭。

如下所示:

def spam(a, b, c, d):
  print(a, b, c, d)

from functools import partial
s1 = partial(spam, 1) # 設定好a = 1(如果沒指定參數名,默認按順序設定)
s1(2, 3, 4) # 1 2 3 4

s2 = partial(spam, d=42) # 設定好d為42
s2(1, 2, 3) # 1 2 3 42

s3 = partial(spam, 1, 2, d=42) #設定好a = 1, b = 2, d = 42
s3(3) # 1 2 3 42

上面提到的技術常常用於將不兼容的代碼“粘”起來,尤其是在你調用別人的輪子,而別人寫好的函數不能修改的時候。比如我們有以下一組元組表示的點的坐標:

points = [(1, 2), (3, 4), (5, 6), (7, 8)]


有已知的一個distance()函數可供使用,假設這是別人造的輪子不能修改。

import math
def distance(p1, p2):
    x1, y1 = p1
    x2, y2 = p2
    return math.hypot(x2 - x1, y2 - y1)


接下來我們想根據列表中這些點到一個定點pt=(4, 3)的距離來排序。我們知道列表的sort()方法
可以接受一個key參數(傳入一個回調函數)來做自定義的排序處理。但傳入的回調函數隻能有一個參數,這裡的distance()函數有兩個參數,顯然不能直接做為回調函數使用。

下面我們用partical()來解決這個問題:

pt = (4, 3)
points.sort(key=partial(distance, pt)) # 先指定好一個參數為pt=(4,3)
print(points)
# [(3, 4), (1, 2), (5, 6), (7, 8)]


可以看到,排序正確運行。還有一種方法要臃腫些,那就是將回調函數distance嵌套進另一個隻有一個參數的lambda函數中:

pt = (4, 3)
points.sort(key=lambda p: distance(p, pt))
print(points)
# [(3, 4), (1, 2), (5, 6), (7, 8)]


這種方法一來臃腫,二來仍然存在我們上面提到過的一個毛病,如果我們定義回調函數後對pt有所修改,就會發生我們上面所說的不愉快的事情:

pt = (4, 3)
func_key = lambda p: distance(p ,pt) 
pt = (0, 0) # 像這樣,後面pt變瞭就GG
points.sort(key=func_key)
print(points)
# [(1, 2), (3, 4), (5, 6), (7, 8)]


可以看到,最終排序的結果由於後面pt的改變而變得完全不同瞭。所以我們還是建議大傢采用使用functools.partial()函數來達成目的。
下面這段代碼也是用partial()函數來調整函數簽名的例子。這段代碼利用multiprocessing模塊以異步方式計算某個結果,然後用一個回調函數來打印該結果,該回調函數可接受這個結果和一個事先指定好的日志參數。

# result:回調函數本身該接受的參數, log是我想使其擴展的參數
def output_result(result, log=None):
    if log is not None:
        log.debug('Got: %r', result)

def add(x, y):
    return x + y

if __name__ == '__main__':
    import logging
    from multiprocessing import Pool
    from functools import partial
    logging.basicConfig(level=logging.DEBUG)
    log = logging.getLogger('test')
    p = Pool()
    p.apply_async(add, (3, 4), callback=partial(output_result, log=log))
    p.close()
    p.join()

# DEBUG:test:Got: 7

下面這個例子則源於一個在編寫網絡服務器中所面對的問題。比如我們在socketServer模塊的基礎上,

編寫瞭下面這個簡單的echo服務程序:

from socketserver import StreamRequestHandler, TCPServer
class EchoHandler(StreamRequestHandler):
    def handle(self):
        for line in self.rfile:
            self.wfile.write(b'GoT:' + line)

serv = TCPServer(('', 15000), EchoHandler)
serv.serve_forever()

現在,我們想在EchoHandler類中增加一個__init__()方法,它接受額外的一個配置參數,用於事先指定ack。即:

class EchoHandler(StreamRequestHandler):
    def __init__(self, *args, ack, **kwargs):
        self.ack = ack
        super().__init__(*args, **kwargs) 
    def handle(self) -> None:
        for line in self.rfile:
            self.wfile.write(self.ack + line)


假如我們就這樣直接改動,就會發現後面會提示__init__()函數缺少keyword-only參數ack(這裡調用EchoHandler()初始化對象的時候會隱式調用__init__()函數)。 我們用partical()也能輕松解決這個問題,即為EchoHandler()事先提供好ack參數。

from functools import partial
serv = TCPServer(('', 15000), partial(EchoHandler, ack=b'RECEIVED'))
serv.serve_forever()


4、在回調函數中攜帶額外的狀態

我們知道,我們調用回調函數後,就會跳轉到一個全新的環境,此時會丟失我們原本的環境狀態。接下來我們討論如何在回調函數中攜帶額外的狀態以便在回調函數內部使用。
因為對回調函數的應用在與異步處理相關的庫和框架中比較常見,我們下面的例子也多和異步處理相關。現在我們定義瞭一個異步處理函數,它會調用一個回調函數。

def apply_async(func, args, *, callback):
    # 計算結果
    result = func(*args)
    # 將結果傳給回調函數
    callback(result)


下面展示上述代碼如何使用:

# 要回調的函數
def print_result(result):
    print("Got: ", result)
    
def add(x, y):
    return x + y

apply_async(add, (2, 3), callback=print_result)
# Got: 5
apply_async(add, ('hello', 'world'), callback=print_result)
# Got: helloworld


現在我們希望回調函數print_reuslt()能夠接受更多的參數,比如其他變量或者環境狀態信息。比如我們想讓print_result()函數每次的打印信息都包括一個序列號,以表示這是第幾次被調用,如[1] …、[2] …這樣。首先我們想到,可以用額外的參數在回調函數中攜帶狀態,然後用partial()來處理參數個數問題:

class SequenceNo:
    def __init__(self) -> None:
        self.sequence = 0

def handler(result, seq):
    seq.sequence += 1
    print("[{}] Got: {}".format(seq.sequence, result))

seq = SequenceNo()
from functools import partial
apply_async(add, (2, 3), callback=partial(handler, seq=seq)) 
# [1] Got: 5
apply_async(add, ('hello', 'world'), callback=partial(handler, seq=seq))
# [2] Got: helloworld

看起來整個代碼有點松散繁瑣,我們有沒有什麼更簡潔緊湊的方法能夠處理這個問題呢?答案是直接使用和其他類綁定的方法(bound-method)。比如面這段代碼就將print_result做為一個類的方法,這個類保存瞭計數用的ack序列號,每當調用print_reuslt()打印一個結果時就遞增1:

class ResultHandler:
    def __init__(self) -> None:
        self.sequence = 0
    def handler(self, result):
        self.sequence += 1
        print("[{}] Got: {}".format(self.sequence, result))

apply_async(add, (2, 3), callback=r.handler) 
# [1] Got: 5
apply_async(add, ('hello', 'world'), callback=r.handler) 
# [2] Got: helloworld

還有一種實現方法是使用閉包,這種方法和使用類綁定方法相似。但閉包更簡潔優雅,運行速度也更快:

def make_handler():
    sequence = 0
    def handler(result):
        nonlocal sequence # 在閉包中編寫函數來修改內層變量,需要用nonlocal聲明
        sequence += 1
        print("[{}] Got: {}".format(sequence, result))
    return handler

handler = make_handler()
apply_async(add, (2, 3), callback=handler) 
# [1] Got: 5
apply_async(add, ('hello', 'world'), callback=handler) 
# [2] Got: helloworld

最後一種方法,則是利用協程(coroutine)來完成同樣的任務:

def make_handler_cor():
    sequence = 0
    while True:
        result = yield
        sequence += 1
        print("[{}] Got: {}".format(sequence, result))

handler = make_handler_cor()
next(handler) # 切記在yield之前一定要加這一句
apply_async(add, (2, 3), callback=handler.send) #對於協程來說,可以使用它的send()方法來做為回調函數
# [1] Got: 5
apply_async(add, ('hello', 'world'), callback=handler.send)
# [2] Got: helloworld

到此這篇關於Python技巧匿名函數、回調函數和高階函數 的文章就介紹到這瞭,更多相關Python匿名函數、回調函數和高階函數 內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: