pandas loc iloc ix用法詳細分析
1.什麼是label
pandas處理數據時,我們會經常看到dataframe結構使用loc, iloc, ix等方法。那麼這些方法到底有啥區別,下面我們來進行詳細分析。
首先我們先明確一點,這幾個方法都可以用來過濾dataframe的行列。他們的不同,主要還是使用方式的不同。
在分析之前,我們先來明確一下標簽label的概念。為瞭方便看得更清楚,先構造一個數據集
import pandas as pd def test_loc(): name = ['n1', 'n2', 'n3', 'n4', 'n5', 'n6'] age = [1, 2, 3, 4, 5, 6] country = ['Chi', 'Chi', 'Ame', 'Ame', 'Jp', 'Koe'] city = ['bj', 'sh', 'ny', 'ny', 'tok', 'se'] data = pd.DataFrame({'name': name, 'age': age, 'country': country, 'city': city}) # label print(data)
name age country city 0 n1 1 Chi bj 1 n2 2 Chi sh 2 n3 3 Ame ny 3 n4 4 Ame ny 4 n5 5 Jp tok 5 n6 6 Koe se
上面的data,0,1,2,3,4,5為索引,就是我們的行標簽。name ,age,country,city為列名,則是我們的列標簽。
2.loc用法
我們先直接上結論:loc可以基於行列標簽對數據進行篩選。
下面通過實驗來說明。
def test_loc(): name = ['n1', 'n2', 'n3', 'n4', 'n5', 'n6'] age = [1, 2, 3, 4, 5, 6] country = ['Chi', 'Chi', 'Ame', 'Ame', 'Jp', 'Koe'] city = ['bj', 'sh', 'ny', 'ny', 'tok', 'se'] data = pd.DataFrame({'name': name, 'age': age, 'country': country, 'city': city}) # 取前幾行 print(data.loc[[0, 1, 2]]) print() print(data.loc[0:2]) print() # 取某幾列 print(data.loc[:, ['name', 'age', 'city']]) print() # 取幾行幾列 print(data.loc[0:2,['name', 'age', 'city']]) print()
2.1 選擇行
loc的整體語法為loc[rows, columns]。逗號前面部分為選擇的行,後面部分為選擇的列,":"表示全選。
loc[0:2]與loc[[0, 1, 2]]的效果一致,都是表示選取前3行,可以認為此時是通過行標簽選擇數據。
2.2 選擇列
實際操作中,最常見的需求就是選擇某幾列而不是所有數據。loc[:, [‘name’, ‘age’, ‘city’]]就是選擇散列,逗號前面的:表示選擇所有行。
2.3 選擇指定的行列
data.loc[0:2,[‘name’, ‘age’, ‘city’]]這種用法,意思就是選擇前三行的name,age,city這三列。
2.4 loc小結
1.就像我們一開始提到的,loc是基於數據行列標簽對數據進行篩選。
2.針對行標簽選擇時,如果index是默認的整數序列,選擇的時候包括瞭末端的一行。
3.":"表示選擇所有行或者所有列。
3.iloc用法
直接上結論:iloc與loc的不同在於,loc基於數據標簽進行篩選,而iloc基於位置進行數據篩選,i可以認為是integer,即在loc的基礎上,用integer整數當作"索引"
看個例子
def test_iloc(): name = ['n1', 'n2', 'n3', 'n4', 'n5', 'n6'] age = [1, 2, 3, 4, 5, 6] country = ['Chi', 'Chi', 'Ame', 'Ame', 'Jp', 'Koe'] city = ['bj', 'sh', 'ny', 'ny', 'tok', 'se'] data = pd.DataFrame({'name': name, 'age': age, 'country': country, 'city': city}) # iloc的索引,不包含最後一個 print(data.iloc[0:2]) print() # print(data.iloc[:, 0:2]) print() print(data.iloc[:,[0, 1, 3]]) print() # print(data.iloc[:, ['name', 'city']]) # IndexError: .iloc requires numeric indexers, got ['name' 'city']
最後輸出為:
name age country city
0 n1 1 Chi bj
1 n2 2 Chi shname age
0 n1 1
1 n2 2
2 n3 3
3 n4 4
4 n5 5
5 n6 6name age city
0 n1 1 bj
1 n2 2 sh
2 n3 3 ny
3 n4 4 ny
4 n5 5 tok
5 n6 6 se
iloc[0:2],表示選擇前兩行。註意在iloc中,末端那行不包括。因為起始索引是0,所以iloc[0:2]選擇的是第0行與第1行。
data.iloc[:, 0:2]表示選擇前兩列,data.iloc[:,[0, 1, 3]]表示選擇第0,1,3列。
如果我們嘗試用列名篩選數據,data.iloc[:, [‘name’, ‘city’]]
代碼會報錯
IndexError: .iloc requires numeric indexers, got ['name' 'city']
上面的錯誤信息就很明確的告訴瞭我們,iloc方法需要numeric indexers。
4.ix
最後一個ix,是歷史版本的用法。ix的作用,現在用loc,iloc基本都能實現,所以ix也基本上被loc,iloc所代替,現在官方不再推薦使用。
到此這篇關於pandas loc iloc ix用法詳解的文章就介紹到這瞭,更多相關pandas loc iloc ix用法內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- Python Pandas 中的數據結構詳解
- Python Pandas中loc和iloc函數的基本用法示例
- pandas按條件篩選數據的實現
- Python數據分析之 Pandas Dataframe修改和刪除及查詢操作
- Python 更快進行探索性數據分析的四個方法