解決Pytorch dataloader時報錯每個tensor維度不一樣的問題
使用pytorch的dataloader報錯:
RuntimeError: stack expects each tensor to be equal size, but got [2] at entry 0 and [1] at entry 1
1. 問題描述
報錯定位:位於定義dataset的代碼中
def __getitem__(self, index): ... return y #此處報錯
報錯內容
File “D:\python\lib\site-packages\torch\utils\data\_utils\collate.py”, line 55, in default_collate
return torch.stack(batch, 0, out=out)
RuntimeError: stack expects each tensor to be equal size, but got [2] at entry 0 and [1] at entry 1
把前一行的報錯帶上能夠更清楚地明白問題在哪裡.
2.問題分析
從報錯可以看到,是在代碼中執行torch.stack時發生瞭報錯.因此必須要明白在哪裡執行瞭stack操作.
通過調試可以發現,在通過loader加載一個batch數據的時候,是通過每一次給一個隨機的index取出相應的向量.那麼最終要形成一個batch的數據就必須要進行拼接操作,而torch.stack就是進行這裡所說的拼接.
再來看看具體報的什麼錯: 說是stack的向量維度不同. 這說明在每次給出一個隨機的index,返回的y向量的維度應該是相同的,而我們這裡是不同的.
這樣解決方法也就明確瞭:使返回的向量y的維度固定下來.
3.問題出處
為什麼我會出現這樣的一個問題,是因為我的特征向量中存在multi-hot特征.而為瞭節省空間,我是用一個列表存儲這個特征的.示例如下:
feature=[[1,3,5], [0,2], [1,2,5,8]]
這就導致瞭我每次返回的向量的維度是不同的.因此可以采用向量補全的方法,把不同長度的向量補全成等長的.
# 把所有向量的長度都補為6 multi = np.pad(multi, (0, 6-multi.shape[0]), 'constant', constant_values=(0, -1))
4.總結
在構建dataset重寫的__getitem__方法中要返回相同長度的tensor.
可以使用向量補全的方法來解決這個問題.
補充:pytorch學習筆記:torch.utils.data下的TensorDataset和DataLoader的使用
一、TensorDataset
對給定的tensor數據(樣本和標簽),將它們包裝成dataset。註意,如果是numpy的array,或者Pandas的DataFrame需要先轉換成Tensor。
''' data_tensor (Tensor) - 樣本數據 target_tensor (Tensor) - 樣本目標(標簽) ''' dataset=torch.utils.data.TensorDataset(data_tensor, target_tensor)
下面舉個例子:
我們先定義一下樣本數據和標簽數據,一共有1000個樣本
import torch import numpy as np num_inputs = 2 num_examples = 1000 true_w = [2, -3.4] true_b = 4.2 features = torch.tensor(np.random.normal(0, 1, (num_examples, num_inputs)), dtype=torch.float) labels = true_w[0] * features[:, 0] + \ true_w[1] * features[:, 1] + true_b labels += torch.tensor(np.random.normal(0, 0.01, size=labels.size()), dtype=torch.float) print(features.shape) print(labels.shape) ''' 輸出:torch.Size([1000, 2]) torch.Size([1000]) '''
然後我們使用TensorDataset來生成數據集
import torch.utils.data as Data # 將訓練數據的特征和標簽組合 dataset = Data.TensorDataset(features, labels)
二、DataLoader
數據加載器,組合數據集和采樣器,並在數據集上提供單進程或多進程迭代器。它可以對我們上面所說的數據集Dataset作進一步的設置。
dataset (Dataset) – 加載數據的數據集。
batch_size (int, optional) – 每個batch加載多少個樣本(默認: 1)。
shuffle (bool, optional) – 設置為True時會在每個epoch重新打亂數據(默認: False).
sampler (Sampler, optional) – 定義從數據集中提取樣本的策略。如果指定,則shuffle必須設置成False。
num_workers (int, optional) – 用多少個子進程加載數據。0表示數據將在主進程中加載(默認: 0)
pin_memory:內存寄存,默認為False。在數據返回前,是否將數據復制到CUDA內存中。
drop_last (bool, optional) – 如果數據集大小不能被batch size整除,則設置為True後可刪除最後一個不完整的batch。如果設為False並且數據集的大小不能被batch size整除,則最後一個batch將更小。(默認: False)
timeout:是用來設置數據讀取的超時時間的,如果超過這個時間還沒讀取到數據的話就會報錯。 所以,數值必須大於等於0。
data_iter=torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, drop_last=False, timeout=0, worker_init_fn=None, multiprocessing_context=None)
上面對一些重要常用的參數做瞭說明,其中有一個參數是sampler,下面我們對它有哪些具體取值再做一下說明。隻列出幾個常用的取值:
torch.utils.data.sampler.SequentialSampler(dataset)
樣本元素按順序采樣,始終以相同的順序。
torch.utils.data.sampler.RandomSampler(dataset)
樣本元素隨機采樣,沒有替換。
torch.utils.data.sampler.SubsetRandomSampler(indices)
樣本元素從指定的索引列表中隨機抽取,沒有替換。
下面就來看一個例子,該例子使用的dataset就是上面所生成的dataset
data_iter=Data.DataLoader(dataset, batch_size=10, shuffle=False, sampler=torch.utils.data.sampler.RandomSampler(dataset)) for X, y in data_iter: print(X,"\n", y) break ''' 輸出: tensor([[-1.6338, 0.8451], [ 0.7245, -0.7387], [ 0.4672, 0.2623], [-1.9082, 0.0980], [-0.3881, 0.5138], [-0.6983, -0.4712], [ 0.1400, 0.7489], [-0.7761, -0.4596], [-2.2700, -0.2532], [-1.2641, -2.8089]]) tensor([-1.9451, 8.1587, 4.2374, 0.0519, 1.6843, 4.3970, 1.9311, 4.1999,0.5253, 11.2277]) '''
以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。
推薦閱讀:
- 我對PyTorch dataloader裡的shuffle=True的理解
- Pytorch數據讀取與預處理該如何實現
- pytorch 實現多個Dataloader同時訓練
- Pytorch數據讀取之Dataset和DataLoader知識總結
- Pytorch如何加載自己的數據集(使用DataLoader讀取Dataset)