使用torchtext導入NLP數據集的操作
如果你是pytorch的用戶,可能你會很熟悉pytorch生態圈中專門預處理圖像數據集的torchvision庫。
從torchtext這個名字我們也能大概猜到該庫是pytorch圈中用來預處理文本數據集的庫,但這方面的教程網絡上比較少,今天我就講講這個特別有用的文本分析庫。
簡介
torchtext在文本數據預處理方面特別強大,但我們要知道ta能做什麼、不能做什麼,並如何將我們的需求用torchtext實現。雖然torchtext是為pytorch而設計的,但是也可以與keras、tensorflow等結合使用。
官方文檔地址 https://torchtext.readthedocs.io/en/latest/index.html
# 安裝 !pip3 install torchtext
自然語言處理預處理的工作流程:
1、Train/Validation/Test數據集分割
2、文件數據導入(File Loading)
3、分詞(Tokenization) 文本字符串切分為詞語列表
4、構建詞典(Vocab) 根據訓練的預料數據集構建詞典
5、數字映射(Numericalize/Indexify) 根據詞典,將數據從詞語映射成數字,方便機器學習
6、導入預訓練好的詞向量(word vector)
7、分批(Batch) 數據集太大的話,不能一次性讓機器讀取,否則機器會內存崩潰。解決辦法就是將大的數據集分成更小份的數據集,分批處理
8、向量映射(Embedding Lookup) 根據預處理好的詞向量數據集,將5的結果中每個詞語對應的索引值變成 詞語向量
上面8個步驟,torchtext實現瞭2-7。第一步需要我們自己diy,好在這一步沒什麼難度
"The quick fox jumped over a lazy dog." # 分詞 ["The", "quick", "fox", "jumped", "over", "a", "lazy", "dog", "."] # 構建詞典 {"The" -> 0, "quick"-> 1, "fox" -> 2, ...} # 數字映射(將每個詞根據詞典映射為對應的索引值) [0, 1, 2, ...] # 向量映射(按照導入的預訓練好的詞向量數據集,把詞語映射成向量) [ [0.3, 0.2, 0.5], [0.6, 0., 0.1], [0.8, 01., 0.4], ... ]
一、數據集分割
一般我們做機器學習會將數據分為訓練集和測試集,而在深度學習中,需要多輪訓練學習,每次的學習過程都包括訓練和驗證,最後再進行測試。所以需要將數據分成訓練、驗證和測試數據。
import pandas as pd import numpy as np def split_csv(infile, trainfile, valtestfile, seed=999, ratio=0.2): df = pd.read_csv(infile) df["text"] = df.text.str.replace("\n", " ") idxs = np.arange(df.shape[0]) np.random.seed(seed) np.random.shuffle(idxs) val_size = int(len(idxs) * ratio) df.iloc[idxs[:val_size], :].to_csv(valtestfile, index=False) df.iloc[idxs[val_size:], :].to_csv(trainfile, index=False) #先將sms_spam.csv數據分為train.csv和test.csv split_csv(infile='data/sms_spam.csv', trainfile='data/train.csv', valtestfile='data/test.csv', seed=999, ratio=0.2) #再將train.csv分為dataset_train.csv和dataset_valid.csv split_csv(infile='data/train.csv', trainfile='data/dataset_train.csv', valtestfile='data/dataset_valid.csv', seed=999, ratio=0.2)
1.1 參數解讀
split_csv(infile, trainfile, valtestfile, seed, ratio)
infile:待分割的csv文件
trainfile:分割出的訓練cs文件
valtestfile:分割出的測試或驗證csv文件
seed:隨機種子,保證每次的隨機分割隨機性一致
ratio:測試(驗證)集占數據的比例
經過上面的操作,我們已經構建出實驗所需的數據:
訓練數據(這裡說的是dataset_train.csv而不是train.csv)
驗證數據(dataset_train.csv)
測試數據(test.csv)。
二、分詞
導入的數據是字符串形式的文本,我們需要將其分詞成詞語列表。英文最精準的分詞器如下:
import re import spacy import jieba #英文的分詞器 NLP = spacy.load('en_core_web_sm') MAX_CHARS = 20000 #為瞭降低處理的數據規模,可以設置最大文本長度,超過的部分忽略, def tokenize1(text): text = re.sub(r"\s", " ", text) if (len(text) > MAX_CHARS): text = text[:MAX_CHARS] return [ x.text for x in NLP.tokenizer(text) if x.text != " " and len(x.text)>1] #有的同學tokenize1用不瞭,可以使用tokenize2。 def tokenize2(text): text = re.sub(r"\s", " ", text) if (len(text) > MAX_CHARS): text = text[:MAX_CHARS] return [w for w in text.split(' ') if len(w)>1] #中文的分類器比較簡單 def tokenize3(text): if (len(text) > MAX_CHARS): text = text[:MAX_CHARS] return [w for w in jieba.lcut(text) if len(w)>1] print(tokenize1('Python is powerful and beautiful!')) print(tokenize2('Python is powerful and beautiful!')) print(tokenize3('Python強大而美麗!'))
Run
['Python', 'is', 'powerful', 'and', 'beautiful'] ['Python', 'is', 'powerful', 'and', 'beautiful!'] ['Python', '強大', '美麗']
三、 導入數據
torchtext中使用torchtext.data.TabularDataset來導入自己的數據集,並且我們需要先定義字段的數據類型才能導入。要按照csv中的字段順序來定義字段的數據類型,我們的csv文件中有兩個字段(label、text)
import pandas as pd df = pd.read_csv('data/train.csv') df.head()
import torch import torchtext from torchtext import data import logging LABEL = data.LabelField(dtype = torch.float) TEXT = data.Field(tokenize = tokenize1, lower=True, fix_length=100, stop_words=None) train, valid, test = data.TabularDataset.splits(path='data', #數據所在文件夾 train='dataset_train.csv', validation='dataset_valid.csv', test = 'test.csv', format='csv', skip_header=True, fields = [('label', LABEL),('text', TEXT)]) train
Run
<torchtext.data.dataset.TabularDataset at 0x120d8ab38>
四、構建詞典
根據訓練(上面得到的train)的預料數據集構建詞典。這兩有兩種構建方式,一種是常規的不使用詞向量,而另一種是使用向量的。
區別僅僅在於vectors是否傳入參數
vects = torchtext.vocab.Vectors(name = 'glove.6B.100d.txt', cache = 'data/') TEXT.build_vocab(train, max_size=2000, min_freq=50, vectors=vects, #vects替換為None則不使用詞向量 unk_init = torch.Tensor.normal_)
4.1 TEXT是Field對象,該對象的方法有
print(type(TEXT)) print(type(TEXT.vocab))
Run
<class 'torchtext.data.field.Field'> <class 'torchtext.vocab.Vocab'>
詞典-詞語列表形式,這裡隻顯示前20個
TEXT.vocab.itos[:20]
['<unk>', '<pad>', 'to', 'you', 'the', '...', 'and', 'is', 'in', 'me', 'it', 'my', 'for', 'your', '..', 'do', 'of', 'have', 'that', 'call']
詞典-字典形式
TEXT.vocab.stoi
defaultdict(<bound method Vocab._default_unk_index of <torchtext.vocab.Vocab object at 0x1214b1e48>>, {'<unk>': 0, '<pad>': 1, 'to': 2, 'you': 3, 'the': 4, '...': 5, 'and': 6, 'is': 7, 'in': 8, .... 'mother': 0, 'english': 0, 'son': 0, 'gradfather': 0, 'father': 0, 'german': 0)
4.2 註意
train數據中生成的詞典,裡面有,這裡有兩個要註意:
是指不認識的詞語都編碼為
german、father等都編碼為0,這是因為我們要求詞典中出現的詞語詞頻必須大於50,小於50的都統一分配一個索引值。
詞語you對應的詞向量
TEXT.vocab.vectors[3]
tensor([-0.4989, 0.7660, 0.8975, -0.7855, -0.6855, 0.6261, -0.3965, 0.3491, 0.3333, -0.4523, 0.6122, 0.0759, 0.2253, 0.1637, 0.2810, -0.2476, 0.0099, 0.7111, -0.7586, 0.8742, 0.0031, 0.3580, -0.3523, -0.6650, 0.3845, 0.6268, -0.5154, -0.9665, 0.6152, -0.7545, -0.0124, 1.1188, 0.3572, 0.0072, 0.2025, 0.5011, -0.4405, 0.1066, 0.7939, -0.8095, -0.0156, -0.2289, -0.3420, -1.0065, -0.8763, 0.1516, -0.0853, -0.6465, -0.1673, -1.4499, -0.0066, 0.0048, -0.0124, 1.0474, -0.1938, -2.5991, 0.4053, 0.4380, 1.9332, 0.4581, -0.0488, 1.4308, -0.7864, -0.2079, 1.0900, 0.2482, 1.1487, 0.5148, -0.2183, -0.4572, 0.1389, -0.2637, 0.1365, -0.6054, 0.0996, 0.2334, 0.1365, -0.1846, -0.0477, -0.1839, 0.5272, -0.2885, -1.0742, -0.0467, -1.8302, -0.2120, 0.0298, -0.3096, -0.4339, -0.3646, -0.3274, -0.0093, 0.4721, -0.5169, -0.5918, -0.3234, 0.2005, -0.4118, 0.4054, 0.7850])
4.3 計算詞語的相似性
得用詞向量構建特征工程時能保留更多的信息量(詞語之間的關系)
這樣可以看出詞語的向量方向
是同義還是反義
距離遠近。
而這裡我們粗糙的用餘弦定理計算詞語之間的關系,沒有近義反義關系,隻能體現出距離遠近(相似性)。
from sklearn.metrics.pairwise import cosine_similarity import numpy as np def simalarity(word1, word2): word_vec1 = TEXT.vocab.vectors[TEXT.vocab.stoi[word1]].tolist() word_vec2 = TEXT.vocab.vectors[TEXT.vocab.stoi[word2]].tolist() vectors = np.array([word_vec1, word_vec2]) return cosine_similarity(vectors) print(simalarity('you', 'your'))
Run
[[1. 0.83483314] [0.83483314 1. ]]
五、get_dataset函數
相似的功能合並成模塊,可以增加代碼的可讀性。這裡我們把階段性合並三四的成果get_dataset函數
from torchtext import data import torchtext import torch import logging LOGGER = logging.getLogger("導入數據") def get_dataset(stop_words=None): #定義字段的數據類型 LABEL = data.LabelField(dtype = torch.float) TEXT = data.Field(tokenize = tokenize1, lower=True, fix_length=100, stop_words=stop_words) LOGGER.debug("準備讀取csv數據...") train, valid, test = data.TabularDataset.splits(path='data', #數據所在文件夾 train='dataset_train.csv', validation='dataset_valid.csv', test = 'test.csv', format='csv', skip_header=True, fields = [('label', LABEL),('text', TEXT)]) LOGGER.debug("準備導入詞向量...") vectors = torchtext.vocab.Vectors(name = 'glove.6B.100d.txt', cache = 'data/') LOGGER.debug("準備構建詞典...") TEXT.build_vocab( train, max_size=2000, min_freq=50, vectors=vectors, unk_init = torch.Tensor.normal_) LOGGER.debug("完成數據導入!") return train,valid, test, TEXT
get_dataset函數內部參數解讀
data.Field(tokenize,fix_length)定義字段
tokenize=tokenize1 使用英文的分詞器tokenize1函數。
fix_length=100 讓每個文本分詞後的長度均為100個詞;不足100的,可以填充為100。超過100的,隻保留100
data.TabularDataset.splits(train, validation,test, format,skip_header,fields)讀取訓練驗證數據,可以一次性讀取多個文件
train/validation/test 訓練驗證測試對應的csv文件名
skip_header=True 如果csv有抬頭,設置為True可以避免pytorch將抬頭當成一條記錄
fields = [(‘label’, LABEL), (‘text’, TEXT)] 定義字段的類型,註意fields要按照csv抬頭中字段的順序設置
torchtext.vocab.Vectors(name, cache)導入詞向量數據文件
name= ‘glove.6B.100d.txt’ 從網上下載預訓練好的詞向量glove.6B.100d.txt文件(該文件有6B個詞,每個詞向量長度為100)
cache = ‘data/’ 文件夾位置。glove文件存放在data文件夾內
TEXT.buildvocab(maxsize,minfreq,unkinit) 構建詞典,其中
max_size=2000 設定瞭詞典最大詞語數
min_freq=50設定瞭詞典中的詞語保證最少出現50次
unkinit=torch.Tensor.normal 詞典中沒有的詞語對應的向量統一用torch.Tensor.normal_填充
六、分批次
數據集太大的話,一次性讓機器讀取容易導致內存崩潰。解決辦法就是將大的數據集分成更小份的數據集,分批處理
def split2batches(batch_size=32, device='cpu'): train, valid, test, TEXT = get_dataset() #datasets按順序包含train、valid、test三部分 LOGGER.debug("準備數據分批次...") train_iterator, valid_iterator, test_iterator = data.BucketIterator.splits((train, valid, test), batch_size = batch_size, sort = False, device = device) LOGGER.debug("完成數據分批次!") return train_iterator, valid_iterator, test_iterator, TEXT
6.1參數解讀
split2batches(batch_size=32, device=0)
batch_size 每批次最多加入多少條評論
device device=’cpu’在CPU中運行,device=’gpu’ 在GPU中運行。普通電腦都隻有CPU的 該函數返回的是BucketIterator對象
train_iterator, valid_iterator, test_iterator, TEXT = split2batches() train_iterator
Run
<torchtext.data.iterator.BucketIterator at 0x12b0c7898>
查看train_iterator數據類型
type(train_iterator) torchtext.data.iterator.BucketIterator
6.2BucketIterator對象
這裡以trainiterator為例(validiterator, test_iterator都是相同的對象)。因為本例中數據有兩個字段label和text,所以
獲取train_iterator的dataset
train_iterator.dataset <torchtext.data.dataset.TabularDataset at 0x12e9c57b8>
獲取train_iterator中的第8個對象
train_iterator.dataset.examples[7] <torchtext.data.example.Example at 0x12a82dcf8>
獲取train_iterator中的第8個對象的lebel字段的內容
train_iterator.dataset.examples[7].label 'ham'
獲取train_iterator中的第8個對象的text字段的內容
train_iterator.dataset.examples[7].text ['were', 'trying', 'to', 'find', 'chinese', 'food', 'place', 'around', 'here']
總結
到這裡我們已經學習瞭torchtext的常用知識。使用本代碼要註意:
我們假設數據集是csv文件,torchtext可以還可以處理tsv、json。但如果你想使用本代碼,請先轉為csv
本教程的csv文件隻有兩個字段,label和text。如果你的數據有更多的字段,記得再代碼中增加字段定義
本教程默認場景是英文,且使用詞向量。所以記得對應位置下載本教程的glove.6B.100d.txt。
glove下載地址https://nlp.stanford.edu/projects/glove/
以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。
推薦閱讀:
- Pytorch技法之繼承Subset類完成自定義數據拆分
- pytorch中關於distributedsampler函數的使用
- 使用Python和scikit-learn創建混淆矩陣的示例詳解
- 詳解pytorch的多GPU訓練的兩種方式
- Pytorch實現圖像識別之數字識別(附詳細註釋)