pandas快速處理Excel,替換Nan,轉字典的操作
pandas讀取Excel
import pandas as pd # 參數1:文件路徑,參數2:sheet名 pf = pd.read_excel(path, sheet_name='sheet1')
刪除指定列
# 通過列名刪除指定列 pf.drop(['序號', '替代', '簽名'], axis=1, inplace=True)
替換列名
# 舊列名 新列名對照 columns_map = { '列名1': 'newname_1', '列名2': 'newname_2', '列名3': 'newname_3', '列名4': 'newname_4', '列名5': 'newname_5', # 沒有列名的情況 'Unnamed: 10': 'newname_6', } new_fields = list(columns_map.values()) pf.rename(columns=columns_map, inplace=True) pf = pf[new_fields]
替換 Nan
通常使用
pf.fillna('新值')
替換表格中的空值,(Nan)。
但是,你可能會發現 fillna() 會有不好使的時候,記得加上 inplace=True
# 加上 inplace=True 表示修改原對象 pf.fillna('新值', inplace=True)
官方對 inplace 的解釋
inplace : boolean, default False
If True, fill in place. Note: this will modify any other views on this object, (e.g. a no-copy slice for a column in a DataFrame).
全列輸出不隱藏
你可能會發現,輸出表格的時候會出現隱藏中間列的情況,隻輸出首列和尾列,中間用 … 替代。
加上下面的這句話,再打印的話,就會全列打印。
pd.set_option('display.max_columns', None) print(pf)
將Excel轉換為字典
pf_dict = pf.to_dict(orient='records')
全部代碼
import pandas as pd pf = pd.read_excel(path, sheet_name='sheet1') columns_map = { '列名1': 'newname_1', '列名2': 'newname_2', '列名3': 'newname_3', '列名4': 'newname_4', '列名5': 'newname_5', # 沒有列名的情況 'Unnamed: 10': 'newname_6', } new_fields = list(columns_map.values()) pf.drop(['序號', '替代', '簽名'], axis=1, inplace=True) pf.rename(columns=columns_map, inplace=True) pf = pf[new_fields] pf.fillna('Unknown', inplace=True) # pd.set_option('display.max_columns', None) # print(smt) pf_dict = pf.to_dict(orient='records')
補充:python pandas replace 0替換成nan,bfill/ffill
0替換成nan
一般情況下,0 替換成nan會寫成
df.replace(0, None, inplace=True)
然而替換不瞭,應該是這樣的
df.replace(0, np.nan, inplace=True)
nan替換成前值後值
df.ffill(axis=0) # 用前一個值替換 df.bfill(axis=0) # 用後一個值替換
以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。如有錯誤或未考慮完全的地方,望不吝賜教。
推薦閱讀:
- Pandas缺失值填充 df.fillna()的實現
- python筆記之使用fillna()填充缺失值
- Python pandas處理缺失值方法詳解(dropna、drop、fillna)
- 淺談pandas中對nan空值的判斷和陷阱
- pandas數據清洗(缺失值和重復值的處理)