OpenMP深入剖析reduction子句教程
前言
在前面的教程OpenMP入門當中我們簡要介紹瞭 OpenMP 的一些基礎的使用方法,在本篇文章當中我們將從一些基礎的問題開始,然後仔細介紹在 OpenMP 當中 reduction 子句的各種使用方法。
從並發求和開始
我們的任務是兩個線程同時對一個變量 data
進行 ++
操作,執行 10000 次,我們看下面的代碼有什麼問題:
#include <stdio.h> #include <omp.h> #include <unistd.h> static int data; int main() { #pragma omp parallel num_threads(2) // 使用兩個線程同時執行上面的代碼塊 { for(int i = 0; i < 10000; i++) { data++; usleep(10); } // omp_get_thread_num 函數返回線程的 id 號 這個數據從 0 開始,0, 1, 2, 3, 4, ... printf("data = %d tid = %d\n", data, omp_get_thread_num()); } printf("In main function data = %d\n", data); return 0; }
在上面的代碼當中,我們開啟瞭兩個線程並且同時執行 $pragma
下面的代碼塊,但是上面的程序有一個問題,就是兩個線程可能同時執行 data++
操作,但是同時執行這個操作的話,就存在並發程序的數據競爭問題,在 OpenMP 當中默認的數據使用方式就是🧍♂️線程之間是共享的比如下面的執行過程:
- 首先線程 1 和線程 2 將 data 加載到 CPU 緩存當中,當前的兩個線程得到的
data
的值都是 0 。 - 線程 1 和線程 2 對
data
進行 ++ 操作,現在兩個線程的data
的值都是 1。 - 線程 1 將 data 的值寫回到主存當中,那麼主存當中的數據的值就等於 1 。
- 線程 2 將 data 的值寫回到主存當中,那麼主存當中的數據的值也等於 1 。
但是上面的執行過程是存在問題的,因為我們期望的是主存當中的 data 的值等於 2,因此上面的代碼是存在錯誤的。
解決求和問題的各種辦法
使用數組巧妙解決並發程序當中的數據競爭問題
在上面的程序當中我們使用瞭一個函數 omp_get_thread_num
這個函數可以返回線程的 id 號,我們可以根據這個 id 做一些文章,如下面的程序:
#include <stdio.h> #include <omp.h> #include <unistd.h> static int data; static int tarr[2]; int main() { #pragma omp parallel num_threads(2) { int tid = omp_get_thread_num(); for(int i = 0; i < 10000; i++) { tarr[tid]++; usleep(10); } printf("tarr[%d] = %d tid = %d\n", tid, tarr[tid], tid); } data = tarr[0] + tarr[1]; printf("In main function data = %d\n", data); return 0; }
在上面的程序當中我們額外的使用瞭一個數組 tarr
用於保存線程的本地的和,然後在最後在主線程裡面講線程本地得到的和相加起來,這樣的話我們得到的結果就是正確的瞭。
$./lockfree01.out
tarr[1] = 10000 tid = 1
tarr[0] = 10000 tid = 0
In main function data = 20000
在上面的程序當中我們需要知道的是,隻有當並行域當中所有的線程都執行完成之後,主線程才會繼續執行並行域後面的代碼,因此主線程在執行代碼
data = tarr[0] + tarr[1]; printf("In main function data = %d\n", data);
之前,OpenMP 中並行域中的代碼全部執行完成,因此上面的代碼執行的時候數組 tarr
中的結果已經計算出來瞭,因此上面的代碼最終的執行結果是 2000。
reduction 子句
在上文當中我們使用數組去避免多個線程同時操作同一個數據的情況,除瞭上面的方法處理求和問題,我們還有很多其他方法去解決這個問題,下面我們使用 reduction 子句去解決這個問題:
#include <stdio.h> #include <omp.h> #include <unistd.h> static int data; int main() { #pragma omp parallel num_threads(2) reduction(+:data) { for(int i = 0; i < 10000; i++) { data++; usleep(10); } printf("data = %d tid = %d\n", data, omp_get_thread_num()); } printf("In main function data = %d\n", data); return 0; }
在上面的程序當中我們使用瞭一個子句 reduction(+:data)
在每個線程裡面對變量 data 進行拷貝,然後在線程當中使用這個拷貝的變量,這樣的話就不存在數據競爭瞭,因為每個線程使用的 data 是不一樣的,在 reduction 當中還有一個加號➕,這個加號表示如何進行規約操作,所謂規約操作簡單說來就是多個數據逐步進行操作最終得到一個不能夠在進行規約的數據。
例如在上面的程序當中我們的規約操作是 + ,因此需要將線程 1 和線程 2 的數據進行 + 操作,即線程 1 的 data 加上 線程 2 的 data 值,然後將得到的結果賦值給全局變量 data,這樣的話我們最終得到的結果就是正確的。
如果有 4 個線程的話,那麼就有 4 個線程本地的 data(每個線程一個 data)。那麼規約(reduction)操作的結果等於:
(((data1 + data2) + data3) + data4) 其中 datai 表示第 i 個線程的得到的 data 。
除瞭後面的兩種方法解決多個線程同時對一個數據進行操作的問題的之外我們還有一些其他的辦法去解決這個問題,我們在下一篇文章當中進行仔細分析。
深入剖析 reduction 子句
我們在寫多線程程序的時候可能會存在這種需求,每個線程都會得到一個數據的結果,然後在最後需要將每個線程得到的數據進行求和,相乘,或者邏輯操作等等,在這種情況下我們可以使用 reduction 子句進行操作。redcution 子句的語法格式如下:
reduction(操作符:變量)
當我們使用 reduction 子句的時候線程使用的是與外部變量同名的變量,那麼這個同名的變量的初始值應該設置成什麼呢?具體的設置規則如下所示:
運算符 | 初始值 |
---|---|
+/加法 | 0 |
*/乘法 | 1 |
&&/邏輯與 | 1 |
||/邏輯或 | 0 |
min/最小值 | 對應類型的最大值 |
max/最大值 | 對應類型的最小值 |
&/按位與 | 所有位都是 1 |
|/按位或 | 所有位都是 0 |
^/按位異或 | 所有位都是 0 |
下面我們使用各種不同的例子去分析上面的所有的條目:
加法+操作符
我們使用下面的程序去測試使用加法規約的正確性,並且在並行域當中打印進行並行域之前變量的值。
#include <stdio.h> #include <omp.h> static int data; int main() { #pragma omp parallel num_threads(2) reduction(+:data) { printf("初始值 : data = %d tid = %d\n", data, omp_get_thread_num()); if(omp_get_thread_num() == 0) { data = 10; }else if(omp_get_thread_num() == 1){ data = 20; } printf("變化後的值 : data = %d tid = %d\n", data, omp_get_thread_num()); } printf("規約之後的值 : data = %d\n", data); return 0; }
上面的程序的輸出結果如下所示:
初始值 : data = 0 tid = 0
變化後的值 : data = 10 tid = 0
初始值 : data = 0 tid = 1
變化後的值 : data = 20 tid = 1
規約之後的值 : data = 30
從上面的輸出結果我們可以知道當進入並行域之後我們的變量的初始值等於 0 ,第一個線程的線程 id 號等於 0 ,它將 data 的值賦值成 10 ,第二個線程的線程 id 號 等於 1,它將 data 的值賦值成 20 。在出並行域之前會將兩個線程得到的 data 值進行規約操作,在上面的代碼當中也就是+操作,並且將這個值賦值給全局變量 data 。
乘法*操作符
#include <stdio.h> #include <omp.h> static int data = 2; int main() { #pragma omp parallel num_threads(2) reduction(*:data) { printf("初始值 : data = %d tid = %d\n", data, omp_get_thread_num()); if(omp_get_thread_num() == 0) { data = 10; }else if(omp_get_thread_num() == 1){ data = 20; } printf("變化後的值 : data = %d tid = %d\n", data, omp_get_thread_num()); } printf("規約之後的值 : data = %d\n", data); return 0; }
上面的程序輸出結果如下所示:
初始值 : data = 1 tid = 0
變化後的值 : data = 10 tid = 0
初始值 : data = 1 tid = 1
變化後的值 : data = 20 tid = 1
規約之後的值 : data = 400
從上面的程序的輸出結果來看,當我們使用*操作符的時候,我們可以看到程序當中 data 的初始值確實被初始化成瞭 1 ,而且最終在主函數當中的輸出結果也是符合預期的,因為 400 = 2 * 10 * 20,其中 2 隻在全局變量初始化的時候的值。
邏輯與&&操作符
#include <stdio.h> #include <omp.h> static int data = 100; int main() { #pragma omp parallel num_threads(2) reduction(&&:data) { printf("data =\t %d tid = %d\n", data, omp_get_thread_num()); if(omp_get_thread_num() == 0) { data = 10; }else if(omp_get_thread_num() == 1){ data = 20; } } printf("data = %d\n", data); return 0; }
上面的程序的輸出結果如下所示:
初始化值 : data = 1 tid = 0
初始化值 : data = 1 tid = 1
在主函數當中 : data = 1
從上面的輸出結果我們可以知道,程序當中數據的初始化的值是沒有問題的,你可能會疑惑為什麼主函數當中的 data 值等於 1,這其實就是 C 語言當中對 && 操作服的定義,如果最終的結果為真,那麼值就等於 1,即 100 && 10 && 20 == 1,你可以寫一個程序去驗證這一點。
或||操作符
#include <stdio.h> #include <omp.h> static int data = 100; int main() { #pragma omp parallel num_threads(2) reduction(||:data) { printf("初始化值 : data = %d tid = %d\n", data, omp_get_thread_num()); if(omp_get_thread_num() == 0) { data = 0; }else if(omp_get_thread_num() == 1){ data = 0; } } printf("在主函數當中 : data = %d\n", data); return 0; }
上面的程序輸出結果如下所示:
初始化值 : data = 1 tid = 0
初始化值 : data = 1 tid = 1
在主函數當中 : data = 1
從上面的結果看出,數據初始化的值是正確的,主函數當中得到的數據也是正確的,因為 100 || 0 || 0 == 1,這個也是 C 語言的條件或得到的結果。
MIN 最小值
#include <stdio.h> #include <omp.h> static int data = 1000; int main() { printf("Int 類型的最大值等於 %d\n", __INT32_MAX__); #pragma omp parallel num_threads(2) reduction(min:data) { printf("data =\t\t %d tid = %d\n", data, omp_get_thread_num()); if(omp_get_thread_num() == 0) { data = 10; }else if(omp_get_thread_num() == 1){ data = 20; } } printf("data = %d\n", data); return 0; }
上面的程序執行結果如下所示:
Int 類型的最大值等於 2147483647
data = 2147483647 tid = 0
data = 2147483647 tid = 1
data = 10
可以看出來初始化的值是正確的,當我們求最小值的時候,數據被正確的初始化成對應數據的最大值瞭,然後我們需要去比較這幾個值的最小值,即 min(1000, 0, 20) == 10 ,因此在主函數當中的到的值等於 10。
MAX 最大值
#include <stdio.h> #include <omp.h> static int data = 1000; int main() { #pragma omp parallel num_threads(2) reduction(max:data) { printf("data = %d tid = %d\n", data, omp_get_thread_num()); if(omp_get_thread_num() == 0) { data = 10; }else if(omp_get_thread_num() == 1){ data = 20; } } printf("data = %d\n", data); return 0; }
上面的程序輸出結果如下所示:
data = -2147483648 tid = 0
data = -2147483648 tid = 1
data = 1000
可以看出程序被正確的初始化成最小值瞭,主函數當中輸出的數據應該等於 max(1000, 10, 20) 因此也滿足條件。
& 按位與
#include <stdio.h> #include <omp.h> static int data = 15; int main() { #pragma omp parallel num_threads(2) reduction(&:data) { printf("data = %d tid = %d\n", data, omp_get_thread_num()); if(omp_get_thread_num() == 0) { data = 8; }else if(omp_get_thread_num() == 1){ data = 12; } } printf("data = %d\n", data); return 0; }
上面的程序輸出結果如下:
data = -1 tid = 0
data = -1 tid = 1
data = 8
首先我們需要知道上面幾個數據的比特位表示:
-1 = 1111_1111_1111_1111_1111_1111_1111_1111 8 = 0000_0000_0000_0000_0000_0000_0000_1000 12 = 0000_0000_0000_0000_0000_0000_0000_1100 15 = 0000_0000_0000_0000_0000_0000_0000_1111
我們知道當我們使用 & 操作符的時候初始值是比特為全部等於 1 的數據,也就是 -1,最終進行按位與操作的數據為 15、8、12,即在主函數當中輸出的結果等於 (8 & 12 & 15) == 8,因為隻有第四個比特位全部為 1,因此最終的結果等於 8 。
|按位或
#include <stdio.h> #include <omp.h> static int data = 1; int main() { #pragma omp parallel num_threads(2) reduction(|:data) { printf("data = %d tid = %d\n", data, omp_get_thread_num()); if(omp_get_thread_num() == 0) { data = 8; }else if(omp_get_thread_num() == 1){ data = 12; } } printf("data = %d\n", data); return 0; }
上面的程序輸出結果如下所示:
data = 0 tid = 0
data = 0 tid = 1
data = 13
我們還是需要瞭解一下上面的數據的比特位表示:
0 = 0000_0000_0000_0000_0000_0000_0000_0000 1 = 0000_0000_0000_0000_0000_0000_0000_0001 8 = 0000_0000_0000_0000_0000_0000_0000_1000 12 = 0000_0000_0000_0000_0000_0000_0000_1100 13 = 0000_0000_0000_0000_0000_0000_0000_1101
線程初始化的數據等於 0 ,這個和前面談到的所有的比特位都設置成 0 是一致的,我們對上面的數據進行或操作之後得到的結果和對應的按位或得到的結果是相符的。
^按位異或
#include <stdio.h> #include <omp.h> static int data = 1; int main() { #pragma omp parallel num_threads(2) reduction(^:data) { printf("data = %d tid = %d\n", data, omp_get_thread_num()); if(omp_get_thread_num() == 0) { data = 8; }else if(omp_get_thread_num() == 1){ data = 12; } } printf("data = %d\n", data); return 0; }
上面的程序的輸出結果如下所示:
data = 0 tid = 0
data = 0 tid = 1
data = 5
各個數據的比特位表示:
0 = 0000_0000_0000_0000_0000_0000_0000_0000 1 = 0000_0000_0000_0000_0000_0000_0000_0001 8 = 0000_0000_0000_0000_0000_0000_0000_1000 12 = 0000_0000_0000_0000_0000_0000_0000_1100 5 = 0000_0000_0000_0000_0000_0000_0000_0101
大傢可以自己對照的進行異或操作,得到的結果是正確的。
總結
在本篇文章當中我們主要使用一個例子介紹瞭如何解決並發程序當中的競爭問題,然後也使用瞭 reduction 子句去解決這個問題,隨後介紹瞭在 OpenMP 當中 reduction 各種規約符號的使用!
在本篇文章當中主要給大傢介紹瞭 OpenMP 的基本使用和程序執行的基本原理,在後續的文章當中我們將仔細介紹各種 OpenMP
的子句和指令的使用方法,希望大傢有所收獲!
以上就是OpenMP深入剖析reduction子句教程的詳細內容,更多關於OpenMP剖析reduction子句的資料請關註WalkonNet其它相關文章!