詳解model.train()和model.eval()兩種模式的原理與用法

一、兩種模式

pytorch可以給我們提供兩種方式來切換訓練和評估(推斷)的模式,分別是:model.train() 和 model.eval()。

一般用法是:在訓練開始之前寫上 model.trian() ,在測試時寫上 model.eval() 。

二、功能

1. model.train()

在使用 pytorch 構建神經網絡的時候,訓練過程中會在程序上方添加一句model.train(),作用是 啟用 batch normalization 和 dropout 。

如果模型中有BN層(Batch Normalization)和 Dropout ,需要在 訓練時 添加 model.train()。

model.train() 是保證 BN 層能夠用到 每一批數據 的均值和方差。對於 Dropout,model.train() 是 隨機取一部分 網絡連接來訓練更新參數。

2. model.eval()

model.eval()的作用是 不啟用 Batch Normalization 和 Dropout。

如果模型中有 BN 層(Batch Normalization)和 Dropout,在 測試時 添加 model.eval()。

model.eval() 是保證 BN 層能夠用 全部訓練數據 的均值和方差,即測試過程中要保證 BN 層的均值和方差不變。對於 Dropout,model.eval() 是利用到瞭 所有 網絡連接,即不進行隨機舍棄神經元。

為什麼測試時要用 model.eval() ?

訓練完 train 樣本後,生成的模型 model 要用來測試樣本瞭。在 model(test) 之前,需要加上model.eval(),否則的話,有輸入數據,即使不訓練,它也會改變權值。這是 model 中含有 BN 層和 Dropout 所帶來的的性質。

eval() 時,pytorch 會自動把 BN 和 DropOut 固定住,不會取平均,而是用訓練好的值。
不然的話,一旦 test 的 batch_size 過小,很容易就會被 BN 層導致生成圖片顏色失真極大。
eval() 在非訓練的時候是需要加的,沒有這句代碼,一些網絡層的值會發生變動,不會固定,你神經網絡每一次生成的結果也是不固定的,生成質量可能好也可能不好。

也就是說,測試過程中使用model.eval(),這時神經網絡會 沿用 batch normalization 的值,而並 不使用 dropout。

3. 總結與對比

如果模型中有 BN 層(Batch Normalization)和 Dropout,需要在訓練時添加 model.train(),在測試時添加 model.eval()。

其中 model.train() 是保證 BN 層用每一批數據的均值和方差,而 model.eval() 是保證 BN 用全部訓練數據的均值和方差;

而對於 Dropout,model.train() 是隨機取一部分網絡連接來訓練更新參數,而 model.eval() 是利用到瞭所有網絡連接。

三、Dropout 簡介

dropout 常常用於抑制過擬合。

設置Dropout時,torch.nn.Dropout(0.5),這裡的 0.5 是指該層(layer)的神經元在每次迭代訓練時會隨機有 50% 的可能性被丟棄(失活),不參與訓練。也就是將上一層數據減少一半傳播。

到此這篇關於詳解model.train()和model.eval()兩種模式的原理與用法的文章就介紹到這瞭,更多相關model.train()和model.eval()原理用法內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: