Python pandas讀取CSV文件的註意事項(適合新手)
前言
本文是給使用pandas的新手而寫,主要列出一些常見的問題,根據筆者所踩過的坑,進行歸納總結,希望對讀者有所幫助。
示例文件
將以下內容保存為文件 people.csv。
id,姓名,性別,出生日期,出生地,職業,愛好
1,張小三,m,1992-10-03,北京,工程師,足球
2,李雲義,m,1995-02-12,上海,程序員,讀書 下棋
3,周娟,女,1998-03-25,合肥,護士,音樂,跑步
4,趙盈盈,Female,2001-6-32,,學生,畫畫
5,鄭強強,男,1991-03-05,南京(nanjing),律師,歷史-政治
如果一切正常的話,在Jupyter Notebook 中應該顯示以下內容:
文件編碼
文件編碼格式是最容易出錯的問題之一。如果編碼格式不正確,就會完全讀取不出文件內容,出現類似於以下的錯誤, 讓人完全不知所措:
—————————————————————————
UnicodeDecodeError Traceback (most recent call last)
<ipython-input-6-8659adefcfa6> in <module>
—-> 1 pd.read_csv(‘people.csv’, encoding=’gb2312′)C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in parser_f(filepath_or_buffer, sep, delimiter, header, names, index_col, usecols, squeeze, prefix, mangle_dupe_cols, dtype, engine, converters, true_values, false_values, skipinitialspace, skiprows, skipfooter, nrows, na_values, keep_default_na, na_filter, verbose, skip_blank_lines, parse_dates, infer_datetime_format, keep_date_col, date_parser, dayfirst, cache_dates, iterator, chunksize, compression, thousands, decimal, lineterminator, quotechar, quoting, doublequote, escapechar, comment, encoding, dialect, error_bad_lines, warn_bad_lines, delim_whitespace, low_memory, memory_map, float_precision)
683 )
684
–> 685 return _read(filepath_or_buffer, kwds)
686
687 parser_f.__name__ = nameC:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in _read(filepath_or_buffer, kwds)
455
456 # Create the parser.
–> 457 parser = TextFileReader(fp_or_buf, **kwds)
458
459 if chunksize or iterator:C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in __init__(self, f, engine, **kwds)
893 self.options[“has_index_names”] = kwds[“has_index_names”]
894
–> 895 self._make_engine(self.engine)
896
897 def close(self):C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in _make_engine(self, engine)
1133 def _make_engine(self, engine=”c”):
1134 if engine == “c”:
-> 1135 self._engine = CParserWrapper(self.f, **self.options)
1136 else:
1137 if engine == “python”:C:\ProgramData\Anaconda3\lib\site-packages\pandas\io\parsers.py in __init__(self, src, **kwds)
1915 kwds[“usecols”] = self.usecols
1916
-> 1917 self._reader = parsers.TextReader(src, **kwds)
1918 self.unnamed_cols = self._reader.unnamed_cols
1919pandas\_libs\parsers.pyx in pandas._libs.parsers.TextReader.__cinit__()
pandas\_libs\parsers.pyx in pandas._libs.parsers.TextReader._get_header()
UnicodeDecodeError: ‘gb2312’ codec can’t decode byte 0x93 in position 2: illegal multibyte sequence
目前對於中文而言,最常使用的有 utf-8 和 gb2312 兩種格式,隻需要指定正確的編碼。在不知道編碼的情況下,隻需要嘗試兩次即可。padas默認的文件編碼格式是 utf-8,所以如果出現以上錯誤,隻需使用 encoding=gb2312 再嘗試一下即可,如 pd.read_csv(file, encoding=’gb2312′)。
空值
空值是csv中也非常常見,比如以下內容:
import pandas as pd df = pd.read_csv('people.csv') v1=df['出生地'][3] print(v1, type(v1))
輸出為:
nan <class ‘float’>
由此可見,空值也是有數據類型的,為 float 類型。
如何判斷空值有兩種方法,可以使用 math.isnan(x) 也可以使用 isinstance(float)。我們知道,DateFrame對象是包括Series對象,而在一個Series對象中,所有的數據類型默認是一樣的,所以如果其數據類型推斷為字符串(str),那麼直接使用 math.isnan(x) 則會報錯 TypeError: must be real number, not str 錯誤,即必需為實數,不能是字符串。所以,這時我們還需要使用 isinstance(x, flaot) 方法。
具體請看這個示例:
df.出生地=df.出生地.map(lambda x: '其他' if isinstance(x, float) else x) df
日期錯誤
出生日期中,有的數據錯誤,如趙盈盈的出生日期是6月32號,所以報錯瞭。對於這樣類似的錯誤,我們可以使用函數判斷的方式進行處理,具體如下。
首先,編寫 isDate 函數用於判斷日期是否合法。
def isDate(adate): try: sects = adate.split('-') year = int(sects[0]) month = int(sects[1]) day = int(sects[2]) days = [0, 31, 29 if year % 4 == 0 else 28, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31] return year > 0 and year < 9999 and month > 0 and month <= 12 and day > 0 and day <= days[month] except: return False
然後使用以下代碼進行判斷:
for id in df.index: if not isDate(df.loc[id, '出生日期']): print(df.loc[id, '出生日期']) df.loc[id, '出生日期'] = '2000-01-01'
輸出結果如下,可見錯誤的日期被修改成瞭2020年1月1日。
2001-6-32
id 姓名 性別 出生日期 出生地 職業 愛好
0 1 張小三 m 1992-10-03 北京 工程師 足球
1 2 李雲義 m 1995-02-12 上海 程序員 讀書 下棋
2 3 周娟 女 1998-03-25 合肥 護士 音樂,跑步
3 4 趙盈盈 Female 2000-01-01 NaN 學生 畫畫
4 5 鄭強強 男 1991-03-05 南京(nanjing) 律師 歷史-政治
函數映射
方法1:直接使用labmda表達式
需要對數據列進行復雜操作的時候,我們可以使用以下函數時行相應的操作。
df=df.fillna('未知') df.愛好=df.愛好.map(lambda x: x.split(' ')[0].split('-')[0].split(',')[0]) df
方法二:使用自定義函數
在進行映射時,如果操作比較簡單,可以使用字典的方式進行數值映射映射(參見下文)。但是如果操作比較復雜,則需要使用函數進行映射。請看這個示例,讀取到性別時,內容有 ‘m’, ‘M’, ‘Female’ 等內容,現在需要其全部轉換為 男 或 女:
def set_sex(s): if s.lower() == 'm' or s.lower() == 'male': return '男' elif s.lower() == 'female': return '女' return s df = pd.read_csv('people.csv', converters={'性別': lambda x : set_sex(x)}) df
方法三:使用數值字典映射
在數據處理時,數值型往往比字符串效率更高,所以在可能的情況下,我們希望將數據轉換成字符串處理。請看這個示例,將輸入的數據的性別中的男性轉換為1 女性轉換為0。操作如下:
總結
到此這篇關於Python pandas讀取CSV文件註意事項的文章就介紹到這瞭,更多相關pandas讀取CSV文件內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- Jupyter Notebook運行JavaScript的方法
- python中pandas.read_csv()函數的深入講解
- Python數據處理pandas讀寫操作IO工具CSV解析
- 超詳細圖解修改pip install默認安裝路徑的方法
- Python pandas中read_csv參數示例詳解