pandas loc iloc ix用法詳細分析

1.什麼是label

pandas處理數據時,我們會經常看到dataframe結構使用loc, iloc, ix等方法。那麼這些方法到底有啥區別,下面我們來進行詳細分析。

首先我們先明確一點,這幾個方法都可以用來過濾dataframe的行列。他們的不同,主要還是使用方式的不同。

在分析之前,我們先來明確一下標簽label的概念。為瞭方便看得更清楚,先構造一個數據集

import pandas as pd

def test_loc():
    name = ['n1', 'n2', 'n3', 'n4', 'n5', 'n6']
    age = [1, 2, 3, 4, 5, 6]
    country = ['Chi', 'Chi', 'Ame', 'Ame', 'Jp', 'Koe']
    city = ['bj', 'sh', 'ny', 'ny', 'tok', 'se']
    data = pd.DataFrame({'name': name, 'age': age, 'country': country, 'city': city})

    # label
    print(data)
  name  age country city
0   n1    1     Chi   bj
1   n2    2     Chi   sh
2   n3    3     Ame   ny
3   n4    4     Ame   ny
4   n5    5      Jp  tok
5   n6    6     Koe   se

上面的data,0,1,2,3,4,5為索引,就是我們的行標簽。name ,age,country,city為列名,則是我們的列標簽。

2.loc用法

我們先直接上結論:loc可以基於行列標簽對數據進行篩選。

下面通過實驗來說明。

def test_loc():
    name = ['n1', 'n2', 'n3', 'n4', 'n5', 'n6']
    age = [1, 2, 3, 4, 5, 6]
    country = ['Chi', 'Chi', 'Ame', 'Ame', 'Jp', 'Koe']
    city = ['bj', 'sh', 'ny', 'ny', 'tok', 'se']
    data = pd.DataFrame({'name': name, 'age': age, 'country': country, 'city': city})
    # 取前幾行
    print(data.loc[[0, 1, 2]])
    print()
    print(data.loc[0:2])
    print()

    # 取某幾列
    print(data.loc[:, ['name', 'age', 'city']])
    print()

    # 取幾行幾列
    print(data.loc[0:2,['name', 'age', 'city']])
    print()

2.1 選擇行

loc的整體語法為loc[rows, columns]。逗號前面部分為選擇的行,後面部分為選擇的列,":"表示全選。

loc[0:2]與loc[[0, 1, 2]]的效果一致,都是表示選取前3行,可以認為此時是通過行標簽選擇數據。

2.2 選擇列

實際操作中,最常見的需求就是選擇某幾列而不是所有數據。loc[:, [‘name’, ‘age’, ‘city’]]就是選擇散列,逗號前面的:表示選擇所有行。

2.3 選擇指定的行列

data.loc[0:2,[‘name’, ‘age’, ‘city’]]這種用法,意思就是選擇前三行的name,age,city這三列。

2.4 loc小結

1.就像我們一開始提到的,loc是基於數據行列標簽對數據進行篩選。
2.針對行標簽選擇時,如果index是默認的整數序列,選擇的時候包括瞭末端的一行。
3.":"表示選擇所有行或者所有列。

3.iloc用法

直接上結論:iloc與loc的不同在於,loc基於數據標簽進行篩選,而iloc基於位置進行數據篩選,i可以認為是integer,即在loc的基礎上,用integer整數當作"索引"

看個例子

def test_iloc():
    name = ['n1', 'n2', 'n3', 'n4', 'n5', 'n6']
    age = [1, 2, 3, 4, 5, 6]
    country = ['Chi', 'Chi', 'Ame', 'Ame', 'Jp', 'Koe']
    city = ['bj', 'sh', 'ny', 'ny', 'tok', 'se']
    data = pd.DataFrame({'name': name, 'age': age, 'country': country, 'city': city})

    # iloc的索引,不包含最後一個
    print(data.iloc[0:2])
    print()

    #
    print(data.iloc[:, 0:2])
    print()
    print(data.iloc[:,[0, 1, 3]])
    print()

    # print(data.iloc[:, ['name', 'city']])
    # IndexError: .iloc requires numeric indexers, got ['name' 'city']

最後輸出為:

  name  age country city
0   n1    1     Chi   bj
1   n2    2     Chi   sh

  name  age
0   n1    1
1   n2    2
2   n3    3
3   n4    4
4   n5    5
5   n6    6

  name  age city
0   n1    1   bj
1   n2    2   sh
2   n3    3   ny
3   n4    4   ny
4   n5    5  tok
5   n6    6   se

iloc[0:2],表示選擇前兩行。註意在iloc中,末端那行不包括。因為起始索引是0,所以iloc[0:2]選擇的是第0行與第1行。

data.iloc[:, 0:2]表示選擇前兩列,data.iloc[:,[0, 1, 3]]表示選擇第0,1,3列。

如果我們嘗試用列名篩選數據,data.iloc[:, [‘name’, ‘city’]]
代碼會報錯

IndexError: .iloc requires numeric indexers, got ['name' 'city']

上面的錯誤信息就很明確的告訴瞭我們,iloc方法需要numeric indexers。

4.ix

最後一個ix,是歷史版本的用法。ix的作用,現在用loc,iloc基本都能實現,所以ix也基本上被loc,iloc所代替,現在官方不再推薦使用。

到此這篇關於pandas loc iloc ix用法詳解的文章就介紹到這瞭,更多相關pandas loc iloc ix用法內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: