Pytorch BertModel的使用說明
基本介紹
環境: Python 3.5+, Pytorch 0.4.1/1.0.0
安裝:
pip install pytorch-pretrained-bert
必需參數:
–data_dir: “str”: 數據根目錄.目錄下放著,train.xxx/dev.xxx/test.xxx三個數據文件.
–vocab_dir: “str”: 詞庫文件地址.
–bert_model: “str”: 存放著bert預訓練好的模型. 需要是一個gz文件, 如”..x/xx/bert-base-chinese.tar.gz “, 裡面包含一個bert_config.json和pytorch_model.bin文件.
–task_name: “str”: 用來選擇對應數據集的參數,如”cola”,對應著數據集.
–output_dir: “str”: 模型預測結果和模型參數存儲目錄.
簡單例子:
導入所需包
import torch from pytorch_pretrained_bert import BertTokenizer, BertModel, BertForMaskedLM
創建分詞器
tokenizer = BertTokenizer.from_pretrained(--vocab_dir)
需要參數: –vocab_dir, 數據樣式見此
擁有函數:
tokenize: 輸入句子,根據–vocab_dir和貪心原則切詞. 返回單詞列表
convert_token_to_ids: 將切詞後的列表轉換為詞庫對應id列表.
convert_ids_to_tokens: 將id列表轉換為單詞列表.
text = '[CLS] 武松打老虎 [SEP] 你在哪 [SEP]' tokenized_text = tokenizer.tokenize(text) indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text) segments_ids = [0, 0, 0, 0, 0, 0, 0,0,0,0, 1,1, 1, 1, 1, 1, 1, 1] tokens_tensor = torch.tensor([indexed_tokens]) segments_tensors = torch.tensor([segments_ids])
這裡對標記符號的切詞似乎有問題([cls]/[sep]), 而且中文bert是基於字級別編碼的,因此切出來的都是一個一個漢字:
['[', 'cl', '##s', ']', '武', '松', '打', '老', '虎', '[', 'sep', ']', '你', '在', '哪', '[', 'sep', ']']
創建bert模型並加載預訓練模型:
model = BertModel.from_pretrained(--bert_model)
放入GPU:
tokens_tensor = tokens_tensor.cuda() segments_tensors = segments_tensors.cuda() model.cuda()
前向傳播:
encoded_layers, pooled_output= model(tokens_tensor, segments_tensors)
參數:
input_ids: (batch_size, sqe_len)代表輸入實例的Tensor
token_type_ids=None: (batch_size, sqe_len)一個實例可以含有兩個句子,這個相當於句子標記.
attention_mask=None: (batch_size*): 傳入每個實例的長度,用於attention的mask.
output_all_encoded_layers=True: 控制是否輸出所有encoder層的結果.
返回值:
encoded_layer:長度為num_hidden_layers的(batch_size, sequence_length,hidden_size)的Tensor.列表
pooled_output: (batch_size, hidden_size), 最後一層encoder的第一個詞[CLS]經過Linear層和激活函數Tanh()後的Tensor. 其代表瞭句子信息
補充:pytorch使用Bert
主要分為以下幾個步驟:
下載模型放到目錄中
使用transformers中的BertModel,BertTokenizer來加載模型與分詞器
使用tokenizer的encode和decode 函數分別編碼與解碼,註意參數add_special_tokens和skip_special_tokens
forward的輸入是一個[batch_size, seq_length]的tensor,再需要註意的是attention_mask參數。
輸出是一個tuple,tuple的第一個值是bert的最後一個transformer層的hidden_state,size是[batch_size, seq_length, hidden_size],也就是bert最後的輸出,再用於下遊的任務。
# -*- encoding: utf-8 -*- import warnings warnings.filterwarnings('ignore') from transformers import BertModel, BertTokenizer, BertConfig import os from os.path import dirname, abspath root_dir = dirname(dirname(dirname(abspath(__file__)))) import torch # 把預訓練的模型從官網下載下來放到目錄中 pretrained_path = os.path.join(root_dir, 'pretrained/bert_zh') # 從文件中加載bert模型 model = BertModel.from_pretrained(pretrained_path) # 從bert目錄中加載詞典 tokenizer = BertTokenizer.from_pretrained(pretrained_path) print(f'vocab size :{tokenizer.vocab_size}') # 把'[PAD]'編碼 print(tokenizer.encode('[PAD]')) print(tokenizer.encode('[SEP]')) # 把中文句子編碼,默認加入瞭special tokens瞭,也就是句子開頭加入瞭[CLS] 句子結尾加入瞭[SEP] ids = tokenizer.encode("我是中國人", add_special_tokens=True) # 從結果中看,101是[CLS]的id,而2769是"我"的id # [101, 2769, 3221, 704, 1744, 782, 102] print(ids) # 把ids解碼為中文,默認是沒有跳過特殊字符的 print(tokenizer.decode([101, 2769, 3221, 704, 1744, 782, 102], skip_special_tokens=False)) # print(model) inputs = torch.tensor(ids).unsqueeze(0) # forward,result是一個tuple,第一個tensor是最後的hidden-state result = model(torch.tensor(inputs)) # [1, 5, 768] print(result[0].size()) # [1, 768] print(result[1].size()) for name, parameter in model.named_parameters(): # 打印每一層,及每一層的參數 print(name) # 每一層的參數默認都requires_grad=True的,參數是可以學習的 print(parameter.requires_grad) # 如果隻想訓練第11層transformer的參數的話: if '11' in name: parameter.requires_grad = True else: parameter.requires_grad = False print([p.requires_grad for name, p in model.named_parameters()])
添加atten_mask的方法:
其中101是[CLS],102是[SEP],0是[PAD]
>>> a tensor([[101, 3, 4, 23, 11, 1, 102, 0, 0, 0]]) >>> notpad = a!=0 >>> notpad tensor([[ True, True, True, True, True, True, True, False, False, False]]) >>> notcls = a!=101 >>> notcls tensor([[False, True, True, True, True, True, True, True, True, True]]) >>> notsep = a!=102 >>> notsep tensor([[ True, True, True, True, True, True, False, True, True, True]]) >>> mask = notpad & notcls & notsep >>> mask tensor([[False, True, True, True, True, True, False, False, False, False]]) >>>
以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。如有錯誤或未考慮完全的地方,望不吝賜教。
推薦閱讀:
- pytorch教程之Tensor的值及操作使用學習
- 深入理解PyTorch中的nn.Embedding的使用
- pytorch下的unsqueeze和squeeze的用法說明
- 對pytorch中不定長序列補齊的操作
- Pytorch中的backward()多個loss函數用法