Python虛擬機棧幀對象及獲取源碼學習
Python虛擬機
註:本篇是根據教程學習記錄的筆記,部分內容與教程是相同的,因為轉載需要填鏈接,但是沒有,所以填的原創,如果侵權會直接刪除。此外,本篇內容大部分都咨詢瞭ChatGPT,為筆者解決瞭很多問題。
問題:
在 Python 程序執行過程與字節碼中,我們研究瞭Python程序的編譯過程:通過Python解釋器中的編譯器對 Python 源碼進行編譯,最終獲得代碼對象 PyCodeObject 。編譯器根據語法規則對源碼進行作用域的劃分,並以此為單位來編譯源碼,最終為每個作用域生成一個代碼對象。代碼對象則保存瞭字節碼,以及相關名字、常量等靜態上下文信息。
(上面這段話是原文章的作者總結的,我個人覺得還是很到位的,大傢也可以再回顧一下這篇筆記的內容: Python 程序執行過程與字節碼,更深刻體會下。)
那麼當我們得到瞭編譯產出的代碼對象後,虛擬機是如何解析並執行其中的字節碼指令的呢?與語法作用域相對應的運行時名字空間,在虛擬機中又是如何動態維護的呢?
1. 棧幀對象
1.1 PyFrameObject
- 當 Python 解釋器加載一個模塊或者執行函數時,會為對應的 PyCodeObject 創建一個 PyFrameObject 對象,並將其壓入 Python 解釋器的執行棧中。以函數為例,PyFrameObject 對象表示函數調用的棧幀對象,它包含瞭函數調用時的所有狀態信息,包括局部變量、棧、當前指令等信息。
具體地我們來看一下執行上下文的具體結構——PyFrameObject,源碼如下:
typedef struct _frame { PyObject_VAR_HEAD struct _frame *f_back; /* previous frame, or NULL */ PyCodeObject *f_code; /* code segment */ PyObject *f_builtins; /* builtin symbol table (PyDictObject) */ PyObject *f_globals; /* global symbol table (PyDictObject) */ PyObject *f_locals; /* local symbol table (any mapping) */ PyObject **f_valuestack; /* points after the last local */ /* Next free slot in f_valuestack. Frame creation sets to f_valuestack. Frame evaluation usually NULLs it, but a frame that yields sets it to the current stack top. */ PyObject **f_stacktop; PyObject *f_trace; /* Trace function */ char f_trace_lines; /* Emit per-line trace events? */ char f_trace_opcodes; /* Emit per-opcode trace events? */ /* Borrowed reference to a generator, or NULL */ PyObject *f_gen; int f_lasti; /* Last instruction if called */ /* Call PyFrame_GetLineNumber() instead of reading this field directly. As of 2.3 f_lineno is only valid when tracing is active (i.e. when f_trace is set). At other times we use PyCode_Addr2Line to calculate the line from the current bytecode index. */ int f_lineno; /* Current line number */ int f_iblock; /* index in f_blockstack */ char f_executing; /* whether the frame is still executing */ PyTryBlock f_blockstack[CO_MAXBLOCKS]; /* for try and loop blocks */ PyObject *f_localsplus[1]; /* locals+stack, dynamically sized */ } PyFrameObject;
源碼分析(隻列出重要字段):
思考:PyFrameObject為什麼沒有記錄閉包信息?
- f_back:表示當前棧幀的前一個棧幀,即調用當前函數的函數的棧幀。Python解釋器使用這個字段來實現函數調用的遞歸和返回。如果當前函數是最外層函數,即沒有調用它的函數,則該字段為NULL。
- f_code:表示當前棧幀對應的 PyCodeObject 對象,即當前函數的字節碼和相關信息。Python 解釋器使用這個字段來執行函數中的字節碼指令。
- f_builtins:表示當前棧幀的內建變量字典,即當前函數中訪問的所有內建函數和對象的名稱和值。Python 解釋器使用這個字段來實現對內建函數和對象的訪問。
- f_locals:表示當前棧幀的局部變量字典,即當前函數的所有局部變量的名稱和值。Python 解釋器使用這個字段來實現變量的讀取和寫入操作。
- f_lasti:表示當前棧幀執行的最後一條指令的指令碼在字節碼序列中的索引。Python 解釋器使用這個字段來記錄當前函數執行的進度,以便在函數被中斷或者函數返回時,能夠恢復到正確的執行位置。
- f_lineno:表示當前棧幀執行的源代碼行號。Python 解釋器使用這個字段來跟蹤當前函數的行號,以便在發生異常時能夠提供更準確的錯誤信息。
- f_localsplus:表示當前棧幀的棧頂指針,即當前函數調用的棧的頂部。Python 解釋器使用這個字段來實現函數調用的參數傳遞和返回值傳遞。
- PyFrameObject 對象本身不記錄閉包相關的信息是出於設計上的考慮。一個主要的原因是為瞭保持執行棧的簡潔性和高效性。
- 閉包是一種在 Python 中廣泛使用的編程模式,但是它在實現上是比較復雜的。在解釋器執行 Python 代碼時,一個函數在定義時可能沒有引用外部變量,但是在運行時卻可能引用瞭。因此,如果要記錄函數中使用的外部變量,就需要在運行時動態地創建一個閉包對象,並將其與函數對象關聯起來。這就會給執行棧的實現帶來很大的復雜性。
- 另一個原因是,閉包可能會被頻繁地創建和銷毀,而在執行棧中保存大量的閉包信息會導致執行效率變慢,甚至可能引起內存泄漏。因此,Python 解釋器在設計執行棧時,選擇不記錄閉包相關的信息,以保持執行棧的簡潔性和高效性。
- 雖然 PyFrameObject 對象本身不記錄閉包相關的信息,但是 Python 解釋器可以通過其他方式來獲取函數的閉包信息,例如通過函數對象的 closure 屬性。
PyFrameObject結構圖如下:
- 其中,f_code字段保存瞭當前執行的代碼對象,最核心的字節碼就在代碼對象中。而f_lasti字段則保存著上條已執行字節碼的編號。虛擬機內部用一個C局部變量next_instr維護下條字節碼的位置,並據此加載下一條待執行的字節碼指令,原理和CPU的指令指針寄存器(%rip)一樣。
- 另外,註意到f_back字段執行前一個棧幀對象,也就是調用者的棧幀對象。這樣一來,棧幀對象按照調用關系串成一個調用鏈。(這裡和x86CPU棧幀佈局是如出一轍的,原作者在這裡介紹瞭x86CPU棧幀佈局與函數調用之間的關系,筆者能力有限就不介紹瞭,大傢感興趣的可以自行查找相關資料(主要還是微機原理和匯編學的不是很好。。。))
1.2 棧幀對象鏈
現在,我們以具體例子來考察Python棧幀對象鏈以及函數調用之間的關系:
pi = 3.14 def square(r): return r ** 2 def circle_area(r): return pi * square(r) def main(): print(circle_area(5)) if __name__ == '__main__': main()
當Python開始執行這個程序時,虛擬機先創建一個棧幀對象,用於執行模塊代碼對象:
當虛擬機執行到模塊代碼第13行時,發生瞭函數調用。這時,虛擬機會新建一個棧幀對象,並開始執行函數main()的代碼對象:
隨著函數調用逐層深入,當調用square()函數時,調用鏈達到最長:
當函數調用完畢後,虛擬機通過f_back字段找到前一個棧幀對象並回到調用者代碼中繼續執行。
1.3 棧幀獲取
棧幀對象PyFrameObject中保存著Python運行時信息,在底層執行流控制以及程序調試中非常有用。在Python代碼層面,我們可以通過sys模塊中的_getframe()函數,即可獲得當前棧幀對象:
>>> import sys >>> frame = sys._getframe() >>> frame <frame at 0x00000183FA78F870, file '<pyshell#1>', line 1, code <module>> >>> dir(frame) ['__class__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'clear', 'f_back', 'f_builtins', 'f_code', 'f_globals', 'f_lasti', 'f_lineno', 'f_locals', 'f_trace', 'f_trace_lines', 'f_trace_opcodes']
拿到棧幀對象之後,我們來具體看一下相關的屬性值,以之前的求面積的函數為例:
>>> import sys >>> pi = 3.14 >>> def square(r): frame = sys._getframe() while frame: print('name:', frame.f_code.co_name) print('Locals', list(frame.f_locals.keys())) print('Globals', list(frame.f_globals.keys())) print('===========') frame = frame.f_back return r ** 2 >>> def circle_area(r): return pi * square(r) >>> def main(): print(circle_area(2)) >>> if __name__ == '__main__': main() name: square Locals ['r', 'frame'] Globals ['__name__', '__doc__', '__package__', '__loader__', '__spec__', '__annotations__', '__builtins__', '__file__', '__cached__', 'sys', 'pi', 'square', 'circle_area', 'main'] =========== name: circle_area Locals ['r'] Globals ['__name__', '__doc__', '__package__', '__loader__', '__spec__', '__annotations__', '__builtins__', '__file__', '__cached__', 'sys', 'pi', 'square', 'circle_area', 'main'] =========== name: main Locals [] Globals ['__name__', '__doc__', '__package__', '__loader__', '__spec__', '__annotations__', '__builtins__', '__file__', '__cached__', 'sys', 'pi', 'square', 'circle_area', 'main'] =========== name: <module> Locals ['__name__', '__doc__', '__package__', '__loader__', '__spec__', '__annotations__', '__builtins__', '__file__', '__cached__', 'sys', 'pi', 'square', 'circle_area', 'main'] Globals ['__name__', '__doc__', '__package__', '__loader__', '__spec__', '__annotations__', '__builtins__', '__file__', '__cached__', 'sys', 'pi', 'square', 'circle_area', 'main'] =========== 12.56
小拓展:自定義函數實現sys._getframe()功能:(這裡是原作者舉的一個例子,個人感覺對相關知識的理解是有幫助的)
當Python程序拋出異常時,會將執行上下文帶出來,保存在異常中:
>>> try: 1 / 0 except Exception as e: print(e.__traceback__.tb_frame) <frame at 0x000002440D95BC50, file '<pyshell#5>', line 4, code <module>>
因此,我們可以自定義一個getframe()函數:
>>> def getframe(): try: 1 / 0 except Exception as e: return e.__traceback__.tb_frame.f_back
註意:getframe()中通過異常獲得的是自己的棧幀對象e.traceback.tb_frame,所以還需要通過f_back字段找到調用者的棧幀。
2. 字節碼執行
Python 虛擬機執行代碼對象的主要函數有兩個:
PyEval_EvalCodeEx() 是通用接口,一般用於函數這樣帶參數的執行場景:
PyObject * PyEval_EvalCodeEx(PyObject *_co, PyObject *globals, PyObject *locals, PyObject *const *args, int argcount, PyObject *const *kws, int kwcount, PyObject *const *defs, int defcount, PyObject *kwdefs, PyObject *closure);
PyEval_EvalCode() 是更高層封裝,用於模塊等無參數的執行場景:
PyObject * PyEval_EvalCode(PyObject *co, PyObject *globals, PyObject *locals);
這兩個函數最終調用 _PyEval_EvalCodeWithName() 函數,初始化棧幀對象並調用 PyEval_EvalFrame 系列函數進行處理。棧幀對象將貫穿代碼對象執行的始終,負責維護執行時所需的一切上下文信息。而PyEval_EvalFrame 系列函數最終調用 _PyEval_EvalFrameDefault() 函數,虛擬機執行的核心就在這裡(具體源碼這裡就不講解瞭)。
PyObject * PyEval_EvalFrame(PyFrameObject *f); PyObject * PyEval_EvalFrameEx(PyFrameObject *f, int throwflag); PyObject* _Py_HOT_FUNCTION _PyEval_EvalFrameDefault(PyFrameObject *f, int throwflag);
文章後續以順序執行、if判斷、while循環詳細講解瞭字節碼的執行過程,這裡筆者就不贅述瞭。
以上就是Python虛擬機棧幀對象及獲取源碼學習的詳細內容,更多關於Python虛擬機棧幀對象獲取的資料請關註WalkonNet其它相關文章!
推薦閱讀:
- python變量作用域與列表入門詳解
- Python字節碼與程序執行過程詳解
- Python中eval函數的表達式作用示例
- Python eval() 函數看這一篇就夠瞭
- Python開啟尾遞歸優化的實現示例