PyTorch梯度裁剪避免訓練loss nan的操作
近來在訓練檢測網絡的時候會出現loss為nan的情況,需要中斷重新訓練,會很麻煩。因而選擇使用PyTorch提供的梯度裁剪庫來對模型訓練過程中的梯度范圍進行限制,修改之後,不再出現loss為nan的情況。
PyTorch中采用torch.nn.utils.clip_grad_norm_來實現梯度裁剪,鏈接如下:
https://pytorch.org/docs/stable/_modules/torch/nn/utils/clip_grad.html
訓練代碼使用示例如下:
from torch.nn.utils import clip_grad_norm_ outputs = model(data) loss= loss_fn(outputs, target) optimizer.zero_grad() loss.backward() # clip the grad clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2) optimizer.step()
其中,max_norm為梯度的最大范數,也是梯度裁剪時主要設置的參數。
備註:網上有同學提醒在(強化學習)使用瞭梯度裁剪之後訓練時間會大大增加。目前在我的檢測網絡訓練中暫時還沒有碰到這個問題,以後遇到再來更新。
補充:pytorch訓練過程中出現nan的排查思路
1、最常見的就是出現瞭除0或者log0這種
看看代碼中在這種操作的時候有沒有加一個很小的數,但是這個數數量級要和運算的數的數量級要差很多。一般是1e-8。
2、在optim.step()之前裁剪梯度
optim.zero_grad() loss.backward() nn.utils.clip_grad_norm(model.parameters, max_norm, norm_type=2) optim.step()
max_norm一般是1,3,5。
3、前面兩條還不能解決nan的話
就按照下面的流程來判斷。
... loss = model(input) # 1. 先看loss是不是nan,如果loss是nan,那麼說明可能是在forward的過程中出現瞭第一條列舉的除0或者log0的操作 assert torch.isnan(loss).sum() == 0, print(loss) optim.zero_grad() loss.backward() # 2. 如果loss不是nan,那麼說明forward過程沒問題,可能是梯度爆炸,所以用梯度裁剪試試 nn.utils.clip_grad_norm(model.parameters, max_norm, norm_type=2) # 3.1 在step之前,判斷參數是不是nan, 如果不是判斷step之後是不是nan assert torch.isnan(model.mu).sum() == 0, print(model.mu) optim.step() # 3.2 在step之後判斷,參數和其梯度是不是nan,如果3.1不是nan,而3.2是nan, # 特別是梯度出現瞭Nan,考慮學習速率是否太大,調小學習速率或者換個優化器試試。 assert torch.isnan(model.mu).sum() == 0, print(model.mu) assert torch.isnan(model.mu.grad).sum() == 0, print(model.mu.grad)
以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。
推薦閱讀:
- Pytorch 中的optimizer使用說明
- pytorch 使用半精度模型部署的操作
- pytorch 實現L2和L1正則化regularization的操作
- Pytorch相關知識介紹與應用
- 使用Pytorch實現two-head(多輸出)模型的操作