Python數據標準化的實例分析
說明
1、將原始數據轉換為均值為0,標準差在1范圍內。
2、對標準化而言:如果出現異常點,由於有一定數據量,少量異常點對平均值的影響不大,因此方差變化不大。
實例
def stand_demo(): """ 標準化 :return: """ # 1. 獲取數據 data = pd.read_csv('dating.txt') data = data.iloc[:, :3] print('data:\n', data) # 2.實例化一個轉換器類 transfer = StandardScaler() # 3.調用fit_transform() data_new = transfer.fit_transform(data) print('data_new:\n', data_new) return None
知識點擴充:
幾種標準化方法:
歸一化Max-Min
min-max標準化方法是對原始數據進行線性變換。設minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標準化映射成在區間[0,1]中的值x’,其公式為:
新數據=(原數據-最小值)/(最大值-最小值)
這種方法能使數據歸一化到一個區域內,同時不改變原來的數據結構。
實現中心化Z-Score
這種方法基於原始數據的均值(mean)和標準差(standard deviation)進行數據的標準化。將A的原始值x使用z-score標準化到x’。
z-score標準化方法適用於屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數據的情況。
新數據=(原數據-均值)/標準差
這種方法適合大多數類型數據,也是很多工具的默認標準化方法。標準化之後的數據是以0為均值,方差為以的正太分佈。但是Z-Score方法是一種中心化方法,會改變原有數據的分佈結構,不適合用於對稀疏數據做處理。
很多時候數據集會存在稀疏特征,表現為標準差小,很多元素值為0,最常見的稀疏數據集是用來做協同過濾的數據集,絕大部分數據都是0。對稀疏數據做標準化,不能采用中心化的方式,否則會破壞稀疏數據的結構。
用於稀疏數據的MaxAbs
最大值絕對值標準化(MaxAbs)即根據最大值的絕對值進行標準化,假設原轉換的數據為x,新數據為x’,那麼x’=x/|max|,其中max為x鎖在列的最大值。
該方法的數據區間為[-1, 1],也不破壞原數據結構的特點,因此也可以用於稀疏數據,一些稀疏矩陣。
針對離群點的RobustScaler
有些時候,數據集中存在離群點,用Z-Score進行標準化,但是結果不理想,因為離群點在標準化後喪失瞭利群特性。
RobustScaler針對離群點做標準化處理,該方法對數據中心化的數據的縮放健壯性有更強的參數控制能力。
到此這篇關於Python數據標準化的實例分析的文章就介紹到這瞭,更多相關Python數據標準化是什麼內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- 簡單且有用的Python數據分析和機器學習代碼
- 使用pandas模塊實現數據的標準化操作
- python的numpy模塊實現邏輯回歸模型
- Python Pandas中loc和iloc函數的基本用法示例
- Python3 常用數據標準化方法詳解