python 如何用map()函數創建多線程任務
對於多線程的使用,我們經常是用thread來創建,比較繁瑣. 在Python中,可以使用map函數簡化代碼。map可以實現多任務的並發
簡單說明map()實現多線程原理:
task = [‘任務1', ‘任務2', ‘任務3', …]
map 函數一手包辦瞭序列操作、參數傳遞和結果保存等一系列的操作,map函數負責將線程分給不同的CPU。
在 Python 中有個兩個庫包含瞭 map 函數: multiprocessing 和它鮮為人知的子庫 multiprocessing.dummy.dummy 是 multiprocessing 模塊的完整克隆,唯一的不同在於 multiprocessing 作用於進程,而 dummy 模塊作用於線程。
代碼如下:
from multiprocessing.dummy import Pool as ThreadPool import os import requests import time import numpy as np # 文件夾位置 filepath = r'C:\Users\Administrator\Desktop\ceshi' pool = ThreadPool(10)#開啟線程數,即一次性拋出的請求數 time_list = []#用來計算時間 xml_list = []#數據集 pathDir = os.listdir(filepath) for i, allDir in enumerate(pathDir): filename = os.path.join('%s%s' % (filepath + '\\', allDir)) kk = open(filename, 'r', encoding='utf-8').read() data = kk.encode('utf-8') for k in range(10): xml_list.append(data) def res(data): # 訪問目標服務器地址 url_host = 'https://mp.csdn.net/mdeditor#' start = time.clock() s = requests.post(url_host, data=data) end = time.clock() if s.status_code == 200: print(end-start) time_list.append(end-start) else: print('請求失敗') # 傳入的參數,1為函數, 2為參數 result = pool.map(res, xml_list) all_arr = np.array(time_list) aver = np.mean(all_arr) variance = np.var(all_arr) mid = np.median(all_arr) min_num = np.min(all_arr) max_num = np.max(all_arr) print('平均值 : '+ str(aver)) print('方差 : ' + str(variance)) print('中值 : ' + str(mid)) print('最小值 : ' + str(min_num)) print('最大值 : ' + str(max_num))
個人做的小測試,如果有錯誤的地方希望留言提出意見及建議。
補充:python多進程(multiprocessing)(map)
map的基本使用:
map函數一手包辦瞭序列操作,參數傳遞和結果保存等一系列的操作。
from multiprocessing.dummy import Pool poop = Pool(4) # 4代表電腦是多少核的 results = pool.map(爬取函數,網址列表) from multiprocessing.dummy import Pool as ThreadPool import requests import time kv = {'user-agent':'Mozilla/5.0'} def getsource(url): html = requests.get(url,headers=kv) urls = [] for i in range(0,41): i = i*50 newpage = 'https://tieba.baidu.com/f?kw=讀書&ie=utf-8&pn=' + str(i) urls.append(newpage) # 單線程爬取 time1 = time.time() for each in urls: print(each) getsource(each) time2 = time.time() print('單線程耗時: ' + str(time2-time1)) # 多線程爬取 pool = ThreadPool(8) time3 = time.time() results = pool.map(getsource, urls) pool.close() pool.join() time4 = time.time() print('多線程所消耗時間:' + str(time4 - time3))
以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。如有錯誤或未考慮完全的地方,望不吝賜教。
推薦閱讀:
- None Found