Python 數據分析教程探索性數據分析
什麼是探索性數據分析(EDA)?
EDA 是數據分析下的一種現象,用於更好地理解數據方面,例如:
– 數據的主要特征
– 變量和它們之間的關系
– 確定哪些變量對我們的問題很重要
我們將研究各種探索性數據分析方法,
例如:
- 描述性統計,這是一種簡要概述我們正在處理的數據集的方法,包括樣本的一些度量和特征
- 分組數據 [使用group by 進行基本分組]
- ANOVA,方差分析,這是一種計算方法,可將觀察集中的變化劃分為不同的分量。
- 相關和相關方法
我們將使用的數據集是子投票數據集,您可以在 python 中將其導入為:
import pandas as pd Df = pd.read_csv("https://vincentarelbundock.github.io / Rdatasets / csv / car / Child.csv")
描述性統計
描述性統計是瞭解數據特征和快速總結數據的有用方法。python 中的 Pandas 提供瞭一個有趣的方法describe() 。describe 函數對數據集應用基本統計計算,如極值、數據點計數標準差等。任何缺失值或 NaN 值都會被自動跳過。describe() 函數很好地描繪瞭數據的分佈情況。
DF.describe()
這是您在運行上述代碼時將獲得的輸出:
另一種有用的方法是 value_counts(),它可以獲取分類屬性值系列中每個類別的計數。例如,假設您正在處理一個客戶數據集,這些客戶在列名 age 下分為青年、中年和老年類別,並且您的數據框是“DF”。您可以運行此語句以瞭解有多少人屬於各個類別。在我們的數據集示例中可以使用教育列
DF["education"].value_counts()
上述代碼的輸出將是:
另一個有用的工具是 boxplot,您可以通過 matplotlib 模塊使用它。箱線圖是數據分佈的圖形表示,顯示極值、中位數和四分位數。我們可以使用箱線圖輕松找出異常值。現在再次考慮我們一直在處理的數據集,讓我們在屬性總體上繪制一個箱線圖
import pandas as pd import matplotlib.pyplot as plt DF = pd.read_csv("https://raw.githubusercontent.com / fivethirtyeight / data / master / airline-safety / airline-safety.csv") y = list(DF.population) plt.boxplot(y) plt.show()
發現異常值後,輸出圖將如下所示:
分組數據
Group by 是 pandas 中可用的一個有趣的度量,它可以幫助我們找出不同分類屬性對其他數據變量的影響。讓我們看一個在同一數據集上的示例,我們想找出人們的年齡和教育對投票數據集的影響。
DF.groupby(['education', 'vote']).mean()
輸出會有點像這樣:
如果按輸出表進行分組難以理解,則進一步的分析師使用數據透視表和熱圖對其進行可視化。
方差分析
ANOVA 代表方差分析。執行它是為瞭找出不同類別數據組之間的關系。
在 ANOVA 下,我們有兩個測量結果:
– F-testscore:顯示組均值相對於變化的變化
– p 值:顯示結果的重要性
這可以使用 python 模塊 scipy 方法名稱f_oneway()
這些樣本是每組的樣本測量值。
作為結論,如果 ANOVA 檢驗給我們一個大的 F 檢驗值和一個小的 p 值,我們可以說其他變量和分類變量之間存在很強的相關性。
相關性和相關性計算
相關性是上下文中兩個變量之間的簡單關系,使得一個變量影響另一個變量。相關性不同於引起的行為。計算變量之間相關性的一種方法是找到 Pearson 相關性。在這裡,我們找到兩個參數,即皮爾遜系數和 p 值。當 Pearson 相關系數接近 1 或 -1 且 p 值小於 0.0001 時,我們可以說兩個變量之間存在很強的相關性。
Scipy 模塊還提供瞭一種執行 pearson 相關性分析的方法,
這裡的示例是您要比較的屬性。
到此這篇關於Python 數據分析教程探索性數據分析的文章就介紹到這瞭,更多相關Python 索性數據分析內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- Python數據可視化探索實例分享
- Python 更快進行探索性數據分析的四個方法
- python驗證多組數據之間有無顯著差異
- python數學建模之Numpy 應用介紹與Pandas學習
- pandas數據分組groupby()和統計函數agg()的使用