詳解model.train()和model.eval()兩種模式的原理與用法

Posted on 2023-03-23 by WalkonNet

一、兩種模式

pytorch可以給我們提供兩種方式來切換訓練和評估(推斷)的模式，分別是：model.train() 和 model.eval()。

一般用法是：在訓練開始之前寫上 model.trian() ，在測試時寫上 model.eval() 。

二、功能

1. model.train()

在使用 pytorch 構建神經網絡的時候，訓練過程中會在程序上方添加一句model.train()，作用是啟用 batch normalization 和 dropout 。

如果模型中有BN層（Batch Normalization）和 Dropout ，需要在訓練時添加 model.train()。

model.train() 是保證 BN 層能夠用到每一批數據的均值和方差。對於 Dropout，model.train() 是隨機取一部分網絡連接來訓練更新參數。

2. model.eval()

model.eval()的作用是不啟用 Batch Normalization 和 Dropout。

如果模型中有 BN 層（Batch Normalization）和 Dropout，在測試時添加 model.eval()。

model.eval() 是保證 BN 層能夠用全部訓練數據的均值和方差，即測試過程中要保證 BN 層的均值和方差不變。對於 Dropout，model.eval() 是利用到瞭所有網絡連接，即不進行隨機舍棄神經元。

為什麼測試時要用 model.eval() ？

訓練完 train 樣本後，生成的模型 model 要用來測試樣本瞭。在 model(test) 之前，需要加上model.eval()，否則的話，有輸入數據，即使不訓練，它也會改變權值。這是 model 中含有 BN 層和 Dropout 所帶來的的性質。

eval() 時，pytorch 會自動把 BN 和 DropOut 固定住，不會取平均，而是用訓練好的值。
不然的話，一旦 test 的 batch_size 過小，很容易就會被 BN 層導致生成圖片顏色失真極大。
eval() 在非訓練的時候是需要加的，沒有這句代碼，一些網絡層的值會發生變動，不會固定，你神經網絡每一次生成的結果也是不固定的，生成質量可能好也可能不好。

也就是說，測試過程中使用model.eval()，這時神經網絡會沿用 batch normalization 的值，而並不使用 dropout。

3. 總結與對比

如果模型中有 BN 層(Batch Normalization）和 Dropout，需要在訓練時添加 model.train()，在測試時添加 model.eval()。

其中 model.train() 是保證 BN 層用每一批數據的均值和方差，而 model.eval() 是保證 BN 用全部訓練數據的均值和方差；

而對於 Dropout，model.train() 是隨機取一部分網絡連接來訓練更新參數，而 model.eval() 是利用到瞭所有網絡連接。

三、Dropout 簡介

dropout 常常用於抑制過擬合。

設置Dropout時，torch.nn.Dropout(0.5)，這裡的 0.5 是指該層（layer）的神經元在每次迭代訓練時會隨機有 50% 的可能性被丟棄（失活），不參與訓練。也就是將上一層數據減少一半傳播。

到此這篇關於詳解model.train()和model.eval()兩種模式的原理與用法的文章就介紹到這瞭,更多相關model.train()和model.eval()原理用法內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

詳解model.train()和model.eval()兩種模式的原理與用法

一、兩種模式

二、功能

1. model.train()

2. model.eval()

為什麼測試時要用 model.eval() ？

3. 總結與對比

三、Dropout 簡介

推薦閱讀：

發佈留言取消回覆

近期文章

一、兩種模式

二、功能

1. model.train()

2. model.eval()

為什麼測試時要用 model.eval() ？

3. 總結與對比

三、Dropout 簡介

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆