pytorch tensor計算三通道均值方式

tensor計算三通道均值

今天用pytorch處理圖像時,涉及到瞭計算均值的問題,整理一下解決思路。

第一種思路

tensor轉換為numpy再進行處理

import torch
import cv2
img = cv2.imread("image path")
tensor_img = torch.from_numpy((img[:, :, ::-1] / 255.0)[None, ...].transpose(0, 3, 1, 2)).cuda()
 
...
 
numpy_img = (tensor_img.detach().cpu().numpy().transpose(2, 3, 1, 0).squeeze() * 255)[:, :, ::-1]
 
ave_color = np.mean(numpy_img , axis=(0, 1))

如果圖像裡有0值,不想計入運算:

numpy_img[numpy_img == 0] = np.nan
ave_color = np.nanmean(numpy_img, axis=(0, 1))

由於tensor和numpy來回轉換會消耗資源、性能。

又查瞭一番,直接在tensor中計算(非零均值計算)

reshape_tensor_img = tensor_img.view(tensor_img.size(0), tensor_img.size(1), -1)
ave_color = reshape_tensor_img.mean(2)
 
# mean value without 0
non_zero_img = reshape_tensor_img[reshape_tensor_img.nonzero(as_tuple=True)]
ave_color = non_zero_img.view(reshape_tensor_img.size(0), reshape_tensor_img.size(1), -1).mean(2)

計算完均值,想要加法運算的時候也會碰上一點維度上的麻煩,需要維度轉換一下。

reshape_ave_color = ave_color.view(ave_color.size(0), ave_color.size(1), 1, 1)
add_img = tensor_img + reshape_ave_color

Pytorch tensor的運算

tensor操作

1. 新建

A、torch.Tensor(shape)/torch.FloatTensor(shape):隨機初始化一個維度為shape的張量。

B、torch.randn(shape):用均值為0,方差為1的高斯分佈初始化一個shape的張量。

C、torch.rand(shape):在區間[0,1]上均勻分佈,初始化一個shape的張量。

2、Tensor的變換

A、view / reshape

兩個用法差不多,都是用來改變一個張量的數據分佈。

註:(2,-1)中的-1會自動計算剩下的維度。

B、squeeze / unsqueeze

第一個是用來壓縮維度為1的張量,如(6,1,32,32).squeeze()之後就變為(6,32,32);第二個是用來增加一個維度。具體看實例如下:

註:squeeze中不帶參數,是將所有維度為1的地方去掉,帶參數是去指定維度為1的地方,若指定的維度不為1,則不變。

註:在指定的維度上插入一個大小為1的新維度。

C、expand / repeat

這兩個都是進行數據的擴充操作,第一個是擴充到指定的維度大小,第二個函數的參數維度上擴充的倍數。一般結合上面2.B中的函數使用。

D、 t / transpose / permute

這三個函數用來數據維度之間的調整,第一個隻能用於2D。

E、broadcasting機制

相當於自動完成瞭unsqueeze+expand的操作,但是相比節省內存空間。

通過broadcasting機制,張量可以直接和標量進行相加。

以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。

推薦閱讀: