pytorch MSELoss計算平均的實現方法
給定損失函數的輸入y,pred,shape均為bxc。
若設定loss_fn = torch.nn.MSELoss(reduction=’mean’),最終的輸出值其實是(y – pred)每個元素數字的平方之和除以(bxc),也就是在batch和特征維度上都取瞭平均。
如果隻想在batch上做平均,可以這樣寫:
loss_fn = torch.nn.MSELoss(reduction='sum') loss = loss_fn(pred, y) / pred.size(0)
補充:PyTorch中MSELoss的使用
參數
torch.nn.MSELoss(size_average=None, reduce=None, reduction: str = 'mean')
size_average和reduce在當前版本的pytorch已經不建議使用瞭,隻設置reduction就行瞭。
reduction的可選參數有:’none’ 、’mean’ 、’sum’
reduction='none'
:求所有對應位置的差的平方,返回的仍然是一個和原來形狀一樣的矩陣。
reduction='mean'
:求所有對應位置差的平方的均值,返回的是一個標量。
reduction='sum'
:求所有對應位置差的平方的和,返回的是一個標量。
更多可查看官方文檔
舉例
首先假設有三個數據樣本分別經過神經網絡運算,得到三個輸出與其標簽分別是:
y_pre = torch.Tensor([[1, 2, 3], [2, 1, 3], [3, 1, 2]]) y_label = torch.Tensor([[1, 0, 0], [0, 1, 0], [0, 0, 1]])
如果reduction=’none’:
criterion1 = nn.MSELoss(reduction='none') loss1 = criterion1(x, y) print(loss1)
則輸出:
tensor([[0., 4., 9.],
[4., 0., 9.],
[9., 1., 1.]])
如果reduction=’mean’:
criterion2 = nn.MSELoss(reduction='mean') loss2 = criterion2(x, y) print(loss2)
則輸出:
tensor(4.1111)
如果reduction=’sum’:
criterion3 = nn.MSELoss(reduction='sum') loss3 = criterion3(x, y) print(loss3)
則輸出:
tensor(37.)
在反向傳播時的使用
一般在反向傳播時,都是先求loss,再使用loss.backward()求loss對每個參數 w_ij和b的偏導數(也可以理解為梯度)。
這裡要註意的是,隻有標量才能執行backward()函數,因此在反向傳播中reduction不能設為’none’。
但具體設置為’sum’還是’mean’都是可以的。
若設置為’sum’,則有Loss=loss_1+loss_2+loss_3,表示總的Loss由每個實例的loss_i構成,在通過Loss求梯度時,將每個loss_i的梯度也都考慮進去瞭。
若設置為’mean’,則相比’sum’相當於Loss變成瞭Loss*(1/i),這在參數更新時影響不大,因為有學習率a的存在。
以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。如有錯誤或未考慮完全的地方,望不吝賜教。
推薦閱讀:
- 基於BCEWithLogitsLoss樣本不均衡的處理方案
- PyTorch實現線性回歸詳細過程
- pytorch 如何打印網絡回傳梯度
- 使用Pytorch實現two-head(多輸出)模型的操作
- Pytorch反向傳播中的細節-計算梯度時的默認累加操作