人工智能Text Generation文本生成原理示例詳解

承上啟下

上一篇文章我們介紹瞭 RNN 相關的基礎知識,現在我們介紹文本生成的基本原理,主要是為瞭能夠靈活運用 RNN 的相關知識,真實的文本生成項目在實操方面比這個要復雜,但是基本的原理是不變的,這裡就是拋磚引玉瞭。

RNN 基礎知識回顧鏈接:https://www.jb51.net/article/228994.htm

原理

我們這裡用到瞭 RNN 來進行文本生成,其他的可以對時序數據進行建模的模型都可以拿來使用,如 LSTM 等。這裡假如已經訓練好一個 RNN 模型來預測下一個字符,假如我們限定瞭輸入的長度為為 21 ,這裡舉例說明:

input:“the cat sat on the ma”

把 21 個字符的文本分割成字符級別的輸入,輸進到模型中,RNN 來積累輸入的信息,最終輸出的狀態向量 h ,然後經過全連接層轉換和 Softmax 分類器的分類,最終輸出是一個候選字符的概率分佈。

在上面的例子中,輸入“the cat sat on the ma”,最後會輸出 26 個英文字母和其他若幹用到的字符(如可能還有標點,空格等)的概率分佈。

"a" --> 0.05
"b" --> 0.03
"c" --> 0.054
...
"t" --> 0.06
...
"," --> 0.01
"。" --> 0.04

此時預測的下一個字符“t”概率值最大,所以選擇“t”作為下一個字符,我們之後將“t”拼接到“the cat sat on the ma”之後得到“the cat sat on the mat”,然後我們取後 21 個字符“he cat sat on the mat”,輸入到模型中

input:“he cat sat on the mat”

此時加入預測下一個字符的概率分佈中“。”的概率最大,我們就取“。”拼接到“the cat sat on the mat”之後,得到“the cat sat on the mat。”,如果還需要繼續進行下去,則不斷重復上面的過程。如果我們的文本生成要求到此結束,則最終得到瞭文本

the cat sat on the mat。

通常我們要用和目標相同的數據進行訓練。如想生成詩詞,就用唐詩宋詞去訓練模型,像生成歌詞,就用周傑倫的歌詞去訓練。

選取預測的下一個字符的三種方式

一般在得到概率分佈,然後去預測下一個字符的時候,會有三種方法。

第一種方法就是像上面提到的,選擇概率分佈中概率最大的字符即可。這種方法雖然最簡單,但是效果並不是最好的,因為幾乎預測字符都是確定的,但是不能達到多元化的有意思的字符結果。公式如下:

next_index = np.argmax(pred)

第二種方法會從多項分佈中隨機抽樣,預測成某個字符的概率為多少,則它被選取當作下一個字符的概率就是多少。在實際情況中往往概率分佈中的值都很小,而且很多候選項的概率相差不大,這樣大傢被選擇的概率都差不多,下一個字符的預測隨機性就很強。假如我們得到預測成某個正確字符的概率為 0.1 ,而預測成其他幾個字符的概率也就隻是稍微低於 0.1 ,那麼這幾個字符被選取當作下一個字符的概率都很相近。這種方式過於隨機,生成的文本的語法和拼寫錯誤往往很多。公式如下:

next_onehot = np.random.multimomial(1, pred, 1)
next_index = np.argmax(next_onehot)

第三種方法是介於前兩種方法之間的一種,生成的下一個字符具有一定的隨機性,但是隨機性並不大,這要靠 temperature 參數進行調節, temperature 是在 0 到 1 之間的小數,如果為 1 則和第一種方法相同,如果為其他值則可以將概率進行不同程度的放大,這表示概率大的字符越大概率被選取到,概率小的字符越小概率被選擇到,這樣就可以有明顯的概率區分度,這樣就不會出現第二種方法中的情況。公式如下所示:

pred = pred ** (1/temperature)
pred = pred / np.sum(pred)

訓練

假如我們有一句話作為訓練數據,如下:

Machine learning is a subset of artificial intelligence.

我們設置兩個參數 len = 5 和 stride = 3 ,len 是輸入長度,stride 是步長,我們將輸入 5 個字符作為輸入,然後輸入下一個字符作為標簽,如下

input:“Machi”
target:“n”

然後因為我們設置瞭 stride 為 3 ,所以我們在文本中向右平移 3 位,然後又選擇 5 個字符作為輸入,之後的一個字符作為標簽,如下:

input:“hine ”
target:“l”

如此往復,不斷向右平移 3 個字符,將新得到的 5 個字符和接下來的 1 個字符作為標簽作為訓練數據輸入到模型中,讓模型學習文本內部的特征。其實訓練數據就是(字符串,下一個字符)的鍵值對。此時得到的所有訓練數據為:

input:'Machi'
target:'n'
input:'hine '
target:'l'
input:'e lea'
target:'r'
...	
input:'ligen'
target:'c'

然後用這些訓練數據進行大量的訓練得到的模型,就可以用來生成新的文本啦!。

總結

訓練模型的流程大致需要三個過程:

1.將訓練數據整理成(segment,next_char)的組合

2.用 one-hot 將字符編碼,segment 編碼成 l*v 的向量,next_char 編碼成 v*1 的向量,l 是輸入長度,v 是字符總個數

3.構建一個網絡,輸入是 l*v 的矩陣,然後通過 RNN 或者 LSTM 捕捉文本特征,然後將最後的特征進行全連接層進行轉換,全連接層用 Softmax 作為激活函數,最後輸出一個 v*1 的概率分佈,下一個字符的選擇方式可以看上面的內容。

生成文本的流程大致需要三個過程:

一般在已經訓練好模型的情況下,我們要輸入字符串當作種子輸入,讓其作為我們接下來要生成文本的開頭,然後不斷重復下面的過程:

  •     a)把輸入使用 one-hot 向量表示,然後輸入到模型中
  •     b)在神經網絡輸出的概率分佈中選取一個字符,作為預測的下一個字符
  •     c)將預測的字符拼接到之前的文本後,選取新的輸入文本

案例

這裡有我之前實現的兩個小案例,可以用來復習 RNN 和 LSTM 的相關知識,覺好留贊。

深度學習TextRNN的tensorflow1.14實現示例

深度學習TextLSTM的tensorflow1.14實現示例

另外 github 上也有很多開源的文本生成項目,項目實現要稍微復雜一點,但是原理和我介紹的一樣,我這裡介紹兩個。

https://github.com/stardut/Text-Generate-RNN

https://github.com/wandouduoduo/SunRnn

以上就是Text Generation文本生成原理示例詳解的詳細內容,更多關於Text Generation文本生成的資料請關註WalkonNet其它相關文章!

推薦閱讀: