人工智能Text Generation文本生成原理示例詳解

Posted on 2023-01-07 by WalkonNet

承上啟下

上一篇文章我們介紹瞭 RNN 相關的基礎知識，現在我們介紹文本生成的基本原理，主要是為瞭能夠靈活運用 RNN 的相關知識，真實的文本生成項目在實操方面比這個要復雜，但是基本的原理是不變的，這裡就是拋磚引玉瞭。

RNN 基礎知識回顧鏈接：https://www.jb51.net/article/228994.htm

原理

我們這裡用到瞭 RNN 來進行文本生成，其他的可以對時序數據進行建模的模型都可以拿來使用，如 LSTM 等。這裡假如已經訓練好一個 RNN 模型來預測下一個字符，假如我們限定瞭輸入的長度為為 21 ，這裡舉例說明：

input：“the cat sat on the ma”

把 21 個字符的文本分割成字符級別的輸入，輸進到模型中，RNN 來積累輸入的信息，最終輸出的狀態向量 h ，然後經過全連接層轉換和 Softmax 分類器的分類，最終輸出是一個候選字符的概率分佈。

在上面的例子中，輸入“the cat sat on the ma”，最後會輸出 26 個英文字母和其他若幹用到的字符（如可能還有標點，空格等）的概率分佈。

"a" --> 0.05
"b" --> 0.03
"c" --> 0.054
...
"t" --> 0.06
...
"，" --> 0.01
"。" --> 0.04

此時預測的下一個字符“t”概率值最大，所以選擇“t”作為下一個字符，我們之後將“t”拼接到“the cat sat on the ma”之後得到“the cat sat on the mat”，然後我們取後 21 個字符“he cat sat on the mat”，輸入到模型中

input：“he cat sat on the mat”

此時加入預測下一個字符的概率分佈中“。”的概率最大，我們就取“。”拼接到“the cat sat on the mat”之後，得到“the cat sat on the mat。”，如果還需要繼續進行下去，則不斷重復上面的過程。如果我們的文本生成要求到此結束，則最終得到瞭文本

the cat sat on the mat。

通常我們要用和目標相同的數據進行訓練。如想生成詩詞，就用唐詩宋詞去訓練模型，像生成歌詞，就用周傑倫的歌詞去訓練。

選取預測的下一個字符的三種方式

一般在得到概率分佈，然後去預測下一個字符的時候，會有三種方法。

第一種方法就是像上面提到的，選擇概率分佈中概率最大的字符即可。這種方法雖然最簡單，但是效果並不是最好的，因為幾乎預測字符都是確定的，但是不能達到多元化的有意思的字符結果。公式如下：

next_index = np.argmax(pred)

第二種方法會從多項分佈中隨機抽樣，預測成某個字符的概率為多少，則它被選取當作下一個字符的概率就是多少。在實際情況中往往概率分佈中的值都很小，而且很多候選項的概率相差不大，這樣大傢被選擇的概率都差不多，下一個字符的預測隨機性就很強。假如我們得到預測成某個正確字符的概率為 0.1 ，而預測成其他幾個字符的概率也就隻是稍微低於 0.1 ，那麼這幾個字符被選取當作下一個字符的概率都很相近。這種方式過於隨機，生成的文本的語法和拼寫錯誤往往很多。公式如下：

next_onehot = np.random.multimomial(1, pred, 1)
next_index = np.argmax(next_onehot)

第三種方法是介於前兩種方法之間的一種，生成的下一個字符具有一定的隨機性，但是隨機性並不大，這要靠 temperature 參數進行調節, temperature 是在 0 到 1 之間的小數，如果為 1 則和第一種方法相同，如果為其他值則可以將概率進行不同程度的放大，這表示概率大的字符越大概率被選取到，概率小的字符越小概率被選擇到，這樣就可以有明顯的概率區分度，這樣就不會出現第二種方法中的情況。公式如下所示：

pred = pred ** (1/temperature)
pred = pred / np.sum(pred)

訓練

假如我們有一句話作為訓練數據，如下：

Machine learning is a subset of artificial intelligence.

我們設置兩個參數 len = 5 和 stride = 3 ，len 是輸入長度，stride 是步長，我們將輸入 5 個字符作為輸入，然後輸入下一個字符作為標簽，如下

input：“Machi”
target：“n”

然後因為我們設置瞭 stride 為 3 ，所以我們在文本中向右平移 3 位，然後又選擇 5 個字符作為輸入，之後的一個字符作為標簽，如下：

input：“hine ”
target：“l”

如此往復，不斷向右平移 3 個字符，將新得到的 5 個字符和接下來的 1 個字符作為標簽作為訓練數據輸入到模型中，讓模型學習文本內部的特征。其實訓練數據就是（字符串，下一個字符）的鍵值對。此時得到的所有訓練數據為：

input：'Machi'
target：'n'
input：'hine '
target：'l'
input：'e lea'
target：'r'
...	
input：'ligen'
target：'c'

然後用這些訓練數據進行大量的訓練得到的模型，就可以用來生成新的文本啦！。

總結

訓練模型的流程大致需要三個過程：

1.將訓練數據整理成（segment，next_char）的組合

2.用 one-hot 將字符編碼，segment 編碼成 l*v 的向量，next_char 編碼成 v*1 的向量，l 是輸入長度，v 是字符總個數

3.構建一個網絡，輸入是 l*v 的矩陣，然後通過 RNN 或者 LSTM 捕捉文本特征，然後將最後的特征進行全連接層進行轉換，全連接層用 Softmax 作為激活函數，最後輸出一個 v*1 的概率分佈，下一個字符的選擇方式可以看上面的內容。

生成文本的流程大致需要三個過程：

一般在已經訓練好模型的情況下，我們要輸入字符串當作種子輸入，讓其作為我們接下來要生成文本的開頭，然後不斷重復下面的過程：

a）把輸入使用 one-hot 向量表示，然後輸入到模型中
b）在神經網絡輸出的概率分佈中選取一個字符，作為預測的下一個字符
c）將預測的字符拼接到之前的文本後，選取新的輸入文本

案例

這裡有我之前實現的兩個小案例，可以用來復習 RNN 和 LSTM 的相關知識，覺好留贊。

深度學習TextRNN的tensorflow1.14實現示例

深度學習TextLSTM的tensorflow1.14實現示例

另外 github 上也有很多開源的文本生成項目，項目實現要稍微復雜一點，但是原理和我介紹的一樣，我這裡介紹兩個。

https://github.com/stardut/Text-Generate-RNN

https://github.com/wandouduoduo/SunRnn

以上就是Text Generation文本生成原理示例詳解的詳細內容，更多關於Text Generation文本生成的資料請關註WalkonNet其它相關文章！

人工智能Text Generation文本生成原理示例詳解

目錄

承上啟下

原理

選取預測的下一個字符的三種方式

訓練

總結

案例

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

承上啟下

原理

選取預測的下一個字符的三種方式

訓練

總結

案例

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆