淺析操作系統中的虛擬地址與物理地址

一、前言

先解釋下一個困擾瞭我很久的問題:虛擬地址(vitural address)和邏輯地址(logical address)的區別。

大部分操作系統的書籍要麼寫的是虛擬地址,要麼寫的是邏輯地址,看的我一臉懵逼。

在《深入理解 Linux 內核》這本書中終於找到瞭確切的答案,這裡我就不寫出來瞭,扣概念的話這倆確實是有些區別的,不過對於我們日常使用以及理解操作系統來說的話,暫且可以把虛擬地址和邏輯地址理解為同一個意思。

二、你看到的所有地址都不是真的

下面這段 C 代碼摘錄自《操作系統導論 – [美] 雷姆茲·H.阿帕希杜塞爾》,依次打印出 main 函數的地址,由 malloc(類似於 Java 中的 new 操作)返回的堆空間分配的值,以及棧上一個整數的地址:

得到以下輸出:

我們需要知道的是,所有這些打印出來的地址都是虛擬的,在物理內存中這些地址並不真實存在,它們最終都將由操作系統和 CPU 硬件翻譯成真正的物理地址,然後才能從真實的物理位置獲取該地址的值。

OK,上述就當作一個引子,讓各位對物理地址和虛擬地址有個直觀的理解,下面正文開始。

三、物理尋址 Physical Addressing

物理地址的概念很好理解,你可以把它稱為真正的地址。《深入理解計算機系統 – 第 3 版》中給出的物理地址(physical address)的定義如下:

計算機系統的主存被組織成一個由 M 個連續的字節大小的單元組成的數組。每字節都有一個唯一的物理地址。

比如說,第一個字節的物理地址是 0,接下來的字節地址是 1,再下一個是 2,以此類推,給定這種簡單的結構,CPU 訪問內存的最自然的方式就是使用這樣的物理地址。我們把這種方式稱為物理尋址(physical addressing)。

舉個例子,比如說當程序執行瞭一條加載指令,指令內容是從物理地址 4 中讀取 4 字節字傳送到某個寄存器中。

物理尋址過程如下:當 CPU 執行到這條指令時,會生成物理地址 4,然後通過內存主線,把它傳遞給內存,內存取出從物理地址 4 處開始的 4 字節字,並將它返回給 CPU,CPU 會將它存放到指定的寄存器中。看下圖:

其實不難發現,物理尋址這種方式,每一個程序都直接訪問物理內存,其實是存在重大缺陷的:

1)首先,用戶程序可以尋址內存的任意一個字節,它們就可以很容易地破壞操作系統,從而使系統慢慢地停止運行。

2)再次,這種尋址方式使得操作系統中同時運行兩個或以上的程序幾乎是不可能的。

舉個例子,我們打開瞭三個相同的程序(計算器),都執行到某一步。比方說,用戶在這三個程序的界面上分別輸入瞭 10、100、1000,其對應的指令就是把用戶輸入的數字保存在內存中的某個地址中。如果這個位置隻能保存一個數,那應該保存哪個呢?這不就沖突瞭嗎?

再舉個例子,摘自《現代操作系統 – 第 3 版》:

一個程序給物理內存地址 1000 賦值也就是存入瞭一些數據後,另一個程序也同樣給這個地址賦值,那麼第二個程序的賦值會覆蓋掉第一個程序所賦的值,這會造成兩個程序同時崩潰。

當然瞭,我們也說瞭是幾乎不可能,不是完全不可能,還是有一些方法可以在物理尋址這種方式下實現多個程序並發運行的。

最簡單的方法就是:首先,將空閑的進程存儲在磁盤上,這樣當它們不運行時就不會占用內存,然後,讓一個程序(或者說進程)單獨占用全部內存運行一小段時間,當發生上下文切換的時候,就停止這個進程,並將它所有的狀態信息保存在磁盤上,再加載其他進程的狀態信息,然後運行一段時間…… 隻要在某一個時間內存中隻有一個程序,那麼就不會發生上述所說的地址沖突。這就實現瞭一種比較粗糙的並發。

為什麼說他是粗糙的呢,因為這種方法有一個問題:將全部的內存信息保存到磁盤太慢瞭!特別是當內存增長的時候。

因此,我們考慮把進程對應的內存一直留在物理內存中,在發生上下文切換的時候就切換到特定的區域。

如下圖所示,有 3 個進程(A、B、C),每個進程擁有從 512KB 物理內存中切出來給它們的一小部分內存,可以理解為這 3 個進程共享物理內存:

顯然,這種方式是存在一定安全隱患的。畢竟如果各個進程之間可以隨意讀取、寫入內容的話那就亂套瞭。

那麼如何對每個進程使用的地址進行保護(protection)呢?繼續使用物理內存模型肯定是不行瞭,因此操作系統創造瞭一個新的內存抽象,引入瞭一個新的內存模型,那就是虛擬地址空間,很多書中都會直接稱呼為 “地址空間(Address Space)”。

四、虛擬尋址 Virtual Addressing

我先通俗地解釋下虛擬地址空間和虛擬地址的概念,直接上書中的定義讀起來有點生澀。

就是說每個進程的棧啊、堆啊、代碼段啊等等它們的實際物理內存地址對於這個進程來說是不可見的,誰也不能直接訪問這個物理地址。

那我們怎麼去訪問這個進程呢?

操作系統會給每個進程分配一個虛擬地址空間(vitural address),每個進程包含的棧、堆、代碼段這些都會從這個地址空間中被分配一個地址,這個地址就被稱為虛擬地址。底層指令寫入的地址也是虛擬地址。

每個進程都擁有一個自己的地址空間,並且獨立於其他進程的地址空間。也就是說一個進程中的虛擬地址 28 所對應的物理地址與另一個進程中的虛擬地址 28 所對應的物理地址是不同的,這樣就不會發生沖突瞭。

可以這麼理解,物理地址就是一個倉庫,虛擬地址就是一個門牌,比方說一共有三十個門牌,那麼所有的進程都能看見這三十個門牌,但是他們看見的某個相同門牌,指向的並不是同一個倉庫。

OK,下面再來看《現代操作系統 – 第 3 版》書中對於地址空間的解釋,應該很容易理解瞭:

地址空間是一個進程可用於尋址內存的一套地址集合。每個進程都有一個自己的地址空間,並且這個地址空間獨立於其他進程的地址空間(除瞭在一些特殊情況下進程需要共享它們的地址空間外)。

地址空間的概念非常通用,並且在很多場合中出現。比如電話號碼,在美國和很多其他國傢,一個本地電話號碼通常是一個 7 位的數字。因此,電話號碼的地址空間是從 0 000 000 到 9 999 999。

地址空間也可以是非數字的,以 “.com” 結尾的網絡域名的集合也是地址空間。這個地址空間是由所有包含 2~63 個字符並且後面跟著 “.com” 的字符串組成的,組成這些字符串的字符可以是字母、數字和連字符。

到現在你應該已經明白地址空間的概念瞭,它是很簡單的。

有瞭虛擬地址空間後,CPU 就可以通過生成一個虛擬地址來訪問主存,這個虛擬地址在被送到內存之前會先被轉換成合適的物理地址,這個虛擬地址到物理地址的轉換過程稱為 地址翻譯/地址轉換(address translation)。

地址翻譯需要 CPU 硬件和操作系統的密切合作:CPU 上的內存管理單元(Memory Management Unit,MMU)就是專門用來進行虛擬地址到物理地址的轉換的,不過 MMU 需要借助存放在內存中的查詢表,而這張表的內容正是由操作系統進行管理的。

那麼,上述這一套 CPU 生成虛擬地址並進行地址翻譯的流程就是虛擬尋址(virtual addressing)。舉個例子,看下圖:

以上就是淺析虛擬地址與物理地址的詳細內容,更多關於虛擬地址 物理地址的資料請關註WalkonNet其它相關文章!

推薦閱讀: