python深度學習人工智能BackPropagation鏈式法則

1.鏈式法則

根據以前的知識,如果我們需要尋找到目標參數的值的話,我們需要先給定一個初值,然後通過梯度下降,不斷對其更新,直到最終的損失值最小即可。而其中最關鍵的一環,就是梯度下降的時候,需要的梯度,也就是需要求最終的損失函數對參數的導數。

如下圖,假設有一個神經元,是輸入層,有2個數據,參數分別是w1和w2,偏置項為b,那麼我們需要把這些參數組合成一個函數z,然後將其輸入到sigmoid函數中,便可得到該神經元的輸出結果。過程中,z對w求導十分好算,就是x1和x2。根據鏈式法則,如下圖左下角所示,我們整體的計算過程就是,通過前向傳播求出z對w的偏導,再通過反向傳播找到損失函數C對z的偏導。

2.前向傳播

計算z對w的偏導:前向傳播相當簡單,對參數的偏導結果就是參數對應的輸入數據,如下圖所示。輸入數據對於輸入層來說就是原始數據1和-1,對於其他層,輸入數據就是通過sigmoid轉換後的輸出結果。

3.後向傳播

計算C對z的偏導:

設每一個神經元中,sigmoid函數最終的輸出為a,則C對z的偏導,根據鏈式法則,就可以寫作a對z的偏導,乘上C對a的偏導。

a對z的偏導,隻是一個sigmoid函數,該函數偏導可以計算。

C對a的偏導,由於a輸入進瞭下一層的多個神經元,假設有2個,因此,C對a的偏導,等於分別對這兩個神經元求偏導並求和。比如第一個神經元z’ = 輸入a*權重w3+…,那麼C對這個神經元求偏導,就是C對z’求偏導,乘上z’對a求偏導,後一項十分簡單,就是w3;對於z”來說,對a求偏導就是w4

那麼問題又變成瞭,C對z’, z”求偏導的結果是什麼?

假!如! 損失函數C對z’和z”的偏導已知瞭:

以上C對z求偏導的計算過程,可以寫作以下的式子,括號外就是a對z求偏導,括號內就是C對a求偏導:

這個式子可以看做一個反向傳播的神經元,如下圖所示:

這個神經元中,損失函數C對sigmoid轉化前的z’ 和z”求導的結果,就是輸入,權重w3,w4是輸入對應的權重,將這兩個輸入乘上參數後相加,再和sigmoid函數對z的導數相乘,最終得到C對z的偏導。而sigmoid對z的導數,這個是常數,並且已經是確定瞭的,因為我們通過前向傳播計算,就已經能夠將其確定。

有瞭第一個反向傳播的輸出結果,那麼就可以有隱藏層的其他神經元所需要的結果,以此類推,對於所有神經元,我們均可算出損失函數對其z的偏導。有瞭這個,那麼我們結合z對w的偏導,就可以計算出每一個參數w的梯度。從而進行梯度下降。

4.計算方式整理

假設我們計算的是輸出層,那麼我們通過前向傳播後,已經得到瞭一個輸出瞭,於是就已經有損失函數C瞭,同時前向傳播也讓我們得到瞭z’和z”,那麼所有需要的數據已就緒,可以直接計算出來C對z’和z”的偏導。

假如我們計算的是中間層,在計算C對z’的偏導的時候,還需要下一層通過反向傳播給到的C對兩個其他z的結果,那麼我們就繼續往下計算,繼續尋找下一層計算的時候,需要的下下一層的信息,一直到輸出層後,我們得到一個,再往回推,以此遞歸計算前面待定的所有項。

5.總結

既然我們需要輸出層的內容作為反向傳播的輸入,我們在進行完前向傳播之後,就別考慮前面需要什麼求導瞭,幹脆直接從結尾開始算起,得到每一層的損失函數C對每一個z的偏導即可。

至此,我們得到瞭每一個神經元前向傳播的z對w的偏導(其實就是sigmoid轉化後的輸出a),以及每一個神經元反向傳播後的C對z的偏導,二者相乘,就得到瞭我們需要的結果,也就是每一個參數的梯度。

以上就是python深度學習人工智能BackPropagation鏈式法則的詳細內容,更多關於python人工智能BackPropagation鏈式法則的資料請關註WalkonNet其它相關文章!

推薦閱讀: