淺談pandas中對nan空值的判斷和陷阱
pandas基於numpy,所以其中的空值nan和numpy.nan是等價的。numpy中的nan並不是空對象,其實際上是numpy.float64對象,所以我們不能誤認為其是空對象,從而用bool(np.nan)去判斷是否為空值,這是不對的。
對於pandas中的空值,我們該如何判斷,並且有哪些我們容易掉進去的陷阱,即不能用怎麼樣的方式去判斷呢?
可以判斷pandas中單個空值對象的方式:
1、利用pd.isnull(),pd.isna();
2、利用np.isnan();
3、利用is表達式;
4、利用in表達式。
不可以用來判斷pandas單個空值對象的方式:
1、不可直接用==表達式判斷;
2、不可直接用bool表達式判斷;
3、不可直接用if語句判斷。
示例:
import pandas as pd import numpy as np na=np.nan # 可以用來判斷空值的方式 pd.isnull(na) # True pd.isna(na) # True np.isnan(na) # True na is np.nan # True na in [np.nan] # True # 不可以直接用來判斷的方式,即以下結果和我們預期不一樣 na == np.nan # False bool(na) # True if na: print('na is not null') # Output: na is not null # 不可以直接用python內置函數any和all any([na]) # True all([na]) #True
總結
numpy.nan是一個numpy.float64的非空對象,所以不能直接用bool表達式去判斷,故一切依賴於佈爾表達式的判斷方式都不行,比如if語句。
對於pandas中空值的判斷,我們隻能通過pandas或者numpy的函數和is表達式去判斷,不能用python的內置函數any或all判斷。
比較奇怪的一點是pandas中空值的判斷可以用is表達式判斷,但是不能用==表達式判斷。我們知道,對於is表達式,如果返回True,表示這兩個引用指向的是同一個內存對象,即內存地址是一樣的,一般同一個對象的不同引用的值也應該是相等的,所以一般is表達式為True,那麼==表達式也為True。
但是對於numpy.nan對象顯然不是這樣的,因為其可以用is表達式判斷,即當is表達式為True時,但==表達式為False,這說明雖然不同numpy.nan變量引用指向的是同一個內存地址,但是其具有自己的值屬性,值是不一樣的,所以不能用==來判斷,這點需要註意。
補充:Pandas+Numpy 數據中空值的處理操作:判斷、查找、填充及刪除
本文整理瞭數據中空值的處理操作,主要內容如下:
為瞭便於描述,定義本文示例數據為如下結構:
df = pd.DataFrame([[1, np.nan], [np.nan, 4], [5,6],[np.nan,7]],columns=["A","B"]) df #定義示例數據df
判斷數據中是否有空值
pandas isnull()函數
df.isnull() #返回df中各元素是否為空的同df大小的數據框 df["A"].isnull() #判斷A列中空值情況 df[["A","B"]].isnull() # 指定多列進行空值判斷,對於本文實例,下述代碼效果同df.isnull()
pandas notnull()函數
df.notnull() #判斷df中各元素是否 不是 空值 df["A"].isnull() #判斷A列中非空值情況 df[["A","B"]].isnull() # 指定多列進行非空值判斷,對於本文實例,下述代碼效果同df.notnull()
numpy np.isnan() 函數
np.isnan(df) # 等同於df.isnull() np.isnan(df["A"]) # 等同於 df["A"].isnull() np.isnan(df[["A","B"]]) # 等同於 df[["A","B"]].isnull()
統計空值/非空值數量
df.isnull().sum() # 統計每列的空值數量 df.notnull().sum() # 統計每列的非空值數量 df["A"].count() # A列 非空數量 df.count() # 統計所有列的非空值數量 df.count(axis=1) # 每行非空值數量,axis=1 df["A"].sum() # A列 元素數值之和
根據空值篩選數據
# 篩選出A列為空的所有行 df[df.A.isnull()] df[df["A"].isnull()] # 篩選出A列非空的所有行 df[df.A.notnull()] df[df["A"].notnull()] # 篩選出df中存在空值的行 df[df.isnull().values==True]
查找空值索引
np.where(np.isnan(df)) # df中空值所在的行索引及列索引 np.where(np.isnan(df.A)) # df中A列空值所在的行索引
刪除空值 dropna()函數
df.dropna() # 刪除存在空值的行,默認axis=0按行,how=any每行存在一個空值就執行刪除行操作 df.dropna(axis=1) # 刪除存在空值的列 df.dropna(how="all") # 刪除所有列都為空值的特定行 df.dropna(how = "any") # 刪除存在空值的行 # 對特定列空值進行刪除 df.dropna(how="any",subset=["A"]) # 刪除A列中存在空值的行 df.dropna(how="any",subset=["A","B"]) # 刪除A,B列中隻要有一列存在空值的行 #將刪除操作作用於原數據,修改替換原數據 df.dropna(how="all",subset=["A","B"],inplace=True) # 刪除A,B列都為空值的行,並替換原數據
填充空值fillna()函數
# 用指定的數字來填充 df.fillna(0) # 用0來填充df中的空值 # 用指定的函數統計值來填充 df.fillna(df.mean()) # 用df中數據的平均值來填充空值 df.fillna(df.mean()["A"]) #指定用A列數據均值來填充df中空值 df.fillna(df.sum()) # 用df中數據的和來填充空值 # 用字典來填充 values = {'A': 0, 'B': 1} # A列空值用0填充,B列空值用1填充 df.fillna(value=values) # 用指定字符串來填充空值 df.fillna("unkown") # 不同的填充方式{‘backfill', ‘bfill', ‘pad', ‘ffill', None} # 每列的空值,用其列下方非空數值填充 df.fillna(method="backfill") df.fillna(method="bfill") # 同backfill # 每列的空值,用其所在列上方非空數值填充,若上方沒有元素,保持空值 df.fillna(method="ffill") df.fillna(method="pad") # 同 ffill #limit參數設置填充空值的最大個數 df.fillna(0,limit=1) # 每列最多填充1個空值,超過范圍的空值依然為空 #inplace參數空值是否修改原數據df df.fillna(0,inplace=True) # inplace為true,將修改作用於原數據
以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。如有錯誤或未考慮完全的地方,望不吝賜教。
推薦閱讀:
- Python數據分析之缺失值檢測與處理詳解
- pandas數據清洗(缺失值和重復值的處理)
- Pandas缺失值填充 df.fillna()的實現
- python筆記之使用fillna()填充缺失值
- Python pandas處理缺失值方法詳解(dropna、drop、fillna)