pandas提升計算效率的一些方法匯總
前言
Pandas是為一次性處理整個行或列的矢量化操作而設計的,循環遍歷每個單元格、行或列並不是它的設計用途。所以,在使用Pandas時,你應該考慮高度可並行化的矩陣運算。
一、避免使用for循環
盡量使用列號或者行號進行矩陣檢索,避免使用for循環。
1.1使用for循環
import os import pandas as pd import datetime path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv' def read_csv(target_csv): target = pd.read_csv(path,header=None,sep=',') return target start_time = datetime.datetime.now() a = read_csv(path) for i in range(10000): b = a.iloc[i] end_time = datetime.datetime.now() print(end_time-start_time)
耗時:0:00:02.455211
1.2使用行號檢索
path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv' def read_csv(target_csv): target = pd.read_csv(path,header=None,sep=',') return target start_time = datetime.datetime.now() a = read_csv(path) b = a.iloc[10000] end_time = datetime.datetime.now() print(end_time-start_time)
耗時:0:00:00.464756
二、使用for循環的條件下提高效率
2.0 如果必須使用for循環如何提高效率
我們可以做的最簡單但非常有價值的加速是使用Pandas的內置 .iterrows() 函數。
在上一節中編寫for循環時,我們使用瞭 range() 函數。然而,當我們在Python中對大范圍的值進行循環時,生成器往往要快得多。
Pandas的 .iterrows() 函數在內部實現瞭一個生成器函數,該函數將在每次迭代中生成一行Dataframe。更準確地說,.iterrows() 為DataFrame中的每一行生成(index, Series)的對(元組)。這實際上與在原始Python中使用 enumerate() 之類的東西是一樣的,但運行速度要快得多!
生成器(Generators)
生成器函數允許你聲明一個行為類似迭代器的函數,也就是說,它可以在for循環中使用。這大大簡化瞭代碼,並且比簡單的for循環更節省內存。
當你想要處理一個龐大的列表時,比如10億個浮點數,問題就出現瞭。使用for循環,在內存中創建瞭大量的內存huge列表,並不是每個人都有無限的RAM來存儲這樣的東西!
生成器將創建元素時,僅在需要時將它們存儲在內存中。一次一個。這意味著,如果必須創建10億個浮點數,那麼隻能一次將它們存儲在內存中。Python中的range()函數使用生成器來構建列表。
也就是說,如果你想多次迭代列表並且它足夠小以適應內存,那麼使用for循環和range函數會更好。這是因為每次訪問list值時,生成器和range都會重新生成它們,而range是一個靜態列表,並且內存中已存在整數以便快速訪問。
2.1使用range
import os import pandas as pd import datetime path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv' def read_csv(target_csv): target = pd.read_csv(path,header=None,sep=',') return target start_time = datetime.datetime.now() a = read_csv(path) for data_row in range(a.shape[0]): b = a.iloc[data_row] end_time = datetime.datetime.now() print(end_time-start_time)
耗時:0:00:07.642816
2.2使用 .iterrows() 代替 range
import os import pandas as pd import datetime path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv' def read_csv(target_csv): target = pd.read_csv(path,header=None,sep=',') return target start_time = datetime.datetime.now() a = read_csv(path) for index,data_row in a.iterrows(): b = data_row end_time = datetime.datetime.now() print(end_time-start_time)
耗時:0:00:03.513161
三、使用.apply
iterrows()函數極大地提高瞭速度,但我們還遠遠沒有完成。請始終記住,當使用為向量操作設計的庫時,可能有一種方法可以在完全沒有for循環的情況下最高效地完成任務。
為我們提供此功能的Pandas功能是 .apply() 函數。apply()函數接受另一個函數作為輸入,並沿著DataFrame的軸(行、列等)應用它。在傳遞函數的這種情況下,lambda通常可以方便地將所有內容打包在一起。
參考鏈接
四、其他方式
博客鏈接
總結
到此這篇關於pandas提升計算效率的文章就介紹到這瞭,更多相關pandas計算效率內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- Python中的pandas表格模塊、文件模塊和數據庫模塊
- python中pandas讀取csv文件時如何省去csv.reader()操作指定列步驟
- python Pandas時序數據處理
- 如何利用python在剪貼板上讀取/寫入數據
- 簡單且有用的Python數據分析和機器學習代碼