python重復值處理得方法
前言:
如果大傢接觸過數據分析,那麼大傢可能都知道,最讓人頭疼的就是在數據錄入的過程中,不可避免的會產生重復值,缺失值和異常值瞭,python也提供瞭一些方法讓我們處理這些值。下面讓我們一塊來學習一下吧~
今天,先處理重復值,首先創建一個包含重復值的DataFrame,如下:
import pandas as pd data = pd.DataFrame([[1,2],[1,2],[3,4]],columns = ['a','b']) print(data)
我們將其打印出來,結果如下:
可以看出來第一第二行是重復的,這裡的數據量比較少,可以直接肉眼觀察,但如果數據量多的時候,我們就需要用到diplicated()函數來查詢瞭,我們用它來查查上面data的重復值。
data[data.duplicated()]
我們可以看出,它把索引為1的行打印瞭出來,如果有3行一樣的呢?我們下面來試試!
import pandas as pd data = pd.DataFrame([[1,2],[1,2],[1,2],[3,4]],columns = ['a','b']) data[data.duplicated()]
其結果如下:
可以看出,重復項出瞭第一個出現的數據外,都會顯示出來。
如果想統計出一共有多少行重復瞭,我們就可以用到sum()函數,代碼如下:
data.duplicated().sum()
很多情況下,我們都需要刪除掉重復的數據,這時候我們就可以用到drop_duplicated()函數,我們將data的重復行刪除掉試試!
data.drop_duplicated()
剛執行代碼時發生瞭錯誤,原來是duplicates而不是duplicated!
但是要註意,用drop_duplicates()刪除重復項並不會影響data的結構,如果你要把data結構改掉就要重新賦值。如果要用來刪除某列的重復值的話,直接在括號內加上列名即可。
如下:
到此這篇關於python重復值處理得方法的文章就介紹到這瞭,更多相關python 重復值 內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- 聊聊python中令人迷惑的duplicated和drop_duplicates()用法
- Python Pandas中DataFrame.drop_duplicates()刪除重復值詳解
- Python pandas找出、刪除重復的數據實例
- pandas統計重復值次數的方法實現
- Python數據分析與處理(二)——處理中國地區信息