Python機器學習三大件之二pandas
一、Pandas
2008年WesMcKinney開發出的庫
專門用於數據挖掘的開源python庫
以Numpy為基礎,借力Numpy模塊在計算方面性能高的優勢
基於matplotlib,能夠簡便的畫圖
獨特的數據結構
二、數據結構
- Pandas中一共有三種數據結構,分別為:Series、DataFrame和MultiIndex。
三、Series
Series是一個類似於一維數組的數據結構,它能夠保存任何類型的數據,比如整數、字符串、浮點數等,主要由一組數據和與之相關的索引兩部分構成。
- Series的創建
import pandas as pd pd.Series(np.arange(3))
0 0
1 1
2 2
dtype: int64
#指定索引 pd.Series([6.7,5.6,3,10,2], index=[1,2,3,4,5])
1 6.7
2 5.6
3 3.0
4 10.0
5 2.0
dtype: float64
#通過字典數據創建 color_count = pd.Series({'red':100, 'blue':200, 'green': 500, 'yellow':1000}) color_count
blue 200
green 500
red 100
yellow 1000
dtype: int64
- Series的屬性
color_count.index color_count.values
也可以使用索引來獲取數據:
color_count[2]
100
- Series排序
data[‘p_change’].sort_values(ascending=True) # 對值進行排序
data[‘p_change’].sort_index() # 對索引進行排序
#series排序時,隻有一列,不需要參數
四、DataFrame
創建
pd.DataFrame(np.random.randn(2,3))
score = np.random.randint(40, 100, (10, 5)) score
array([[92, 55, 78, 50, 50],
[71, 76, 50, 48, 96],
[45, 84, 78, 51, 68],
[81, 91, 56, 54, 76],
[86, 66, 77, 67, 95],
[46, 86, 56, 61, 99],
[46, 95, 44, 46, 56],
[80, 50, 45, 65, 57],
[41, 93, 90, 41, 97],
[65, 83, 57, 57, 40]])
但是這樣的數據形式很難看到存儲的是什麼的樣的數據,可讀性比較差!!
# 使用Pandas中的數據結構 score_df = pd.DataFrame(score)
- DataFrame的屬性
data.shape
data.index
data.columns
data.values
data.T
data.head(5)
data.tail(5)
data.reset_index(keys, drop=True)
keys : 列索引名成或者列索引名稱的列表
drop : boolean, default True.當做新的索引,刪除原來的列
- dataframe基本數據操作
data[‘open’][‘2018-02-27′] # 直接使用行列索引名字的方式(先列後行)
data.loc[‘2018-02-27′:‘2018-02-22′, ‘open’] # 使用loc:隻能指定行列索引的名字
data.iloc[:3, :5 ]# 使用iloc可以通過索引的下標去獲取
data.sort_values(by=“open”, ascending=True) #單個排序
data.sort_values(by=[‘open’, ‘high’]) # 按照多個鍵進行排序
data.sort_index() # 對索引進行排序
DataFrame運算
應用add等實現數據間的加、減法運算
應用邏輯運算符號實現數據的邏輯篩選
應用isin, query實現數據的篩選
使用describe完成綜合統計
使用max, min, mean, std完成統計計算
使用idxmin、idxmax完成最大值最小值的索引
使用cumsum等實現累計分析
應用apply函數實現數據的自定義處理
五、pandas.DataFrame.plot
DataFrame.plot(kind=‘line’)
kind : str,需要繪制圖形的種類
‘line’ : line plot (default)
‘bar’ : vertical bar plot
‘barh’ : horizontal bar plot
關於“barh”的解釋:
http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.barh.html
‘hist’ : histogram
‘pie’ : pie plot
‘scatter’ : scatter plot
六、缺失值處理
isnull、notnull判斷是否存在缺失值
np.any(pd.isnull(movie)) # 裡面如果有一個缺失值,就返回True
np.all(pd.notnull(movie)) # 裡面如果有一個缺失值,就返回False
dropna刪除np.nan標記的缺失值
movie.dropna()
fillna填充缺失值
movie[i].fillna(value=movie[i].mean(), inplace=True)
replace替換
wis.replace(to_replace=”?”, value=np.NaN)
七、數據離散化
p_change= data['p_change'] # 自行分組,每組個數差不多 qcut = pd.qcut(p_change, 10) # 計算分到每個組數據個數 qcut.value_counts()
# 自己指定分組區間 bins = [-100, -7, -5, -3, 0, 3, 5, 7, 100] p_counts = pd.cut(p_change, bins)
得出one-hot編碼矩陣
dummies = pd.get_dummies(p_counts, prefix="rise") #prefix:分組名字前綴
八、數據合並
pd.concat([data1, data2], axis=1)
按照行或列進行合並,axis=0為列索引,axis=1為行索引pd.merge(left, right, how=‘inner’, on=None)
可以指定按照兩組數據的共同鍵值對合並或者左右各自
left: DataFrame
right: 另一個DataFrame
on: 指定的共同鍵
how:按照什麼方式連接
九、交叉表與透視表
交叉表:計算一列數據對於另外一列數據的分組個數 透視表:指定某一列對另一列的關系
#通過交叉表找尋兩列數據的關系 count = pd.crosstab(data['week'], data['posi_neg']) #通過透視表,將整個過程變成更簡單一些 data.pivot_table(['posi_neg'], index='week')
十、數據聚合
count = starbucks.groupby(['Country']).count() col.groupby(['color'])['price1'].mean() #拋開聚合談分組,無意義
到此這篇關於Python機器學習三大件之二pandas的文章就介紹到這瞭,更多相關Python pandas內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- Pandas對數值進行分箱操作的4種方法總結
- Python Pandas學習之Pandas數據結構詳解
- Python數據分析 Pandas Series對象操作
- python數據處理67個pandas函數總結看完就用
- 一篇文章讓你快速掌握Pandas可視化圖表