python機器學習基礎特征工程算法詳解

Posted on 2021-11-12 by WalkonNet

一、機器學習概述

機器學習是從數據中，自動分析獲得規律（模型），並利用規律對未知數據進行預測。

二、數據集的構成

1.數據集存儲

機器學習的歷史數據通常使用csv文件存儲。

不用mysql的原因：

1、文件大的話讀取速度慢；

2、格式不符合機器學習要求的格式

2.可用的數據集

Kaggle：大數據競賽平臺、80萬科學傢、真實數據、數據量巨大

Kaggle網址：https://www.kaggle.com/datasets

UCI：360個數據集、覆蓋科學生活經濟等領域、數據量幾十萬

UCI數據集網址： http://archive.ics.uci.edu/ml/

scikit-learn：數據量較小、方便學習

scikit-learn網址：http://scikit-learn.org/stable/datasets/index.html#datasets

3.常用數據集的結構

特征值（用以判斷目標值所用的條件：比如房子的面積朝向等）+目標值（希望實現的目標：比如房子價格）

有些數據集可以沒有目標值。

三、特征工程

”將原始數據轉換為能更好地代表預測模型的潛在問題的特征“的過程，叫做特征工程，能夠提高對未知數據的預測準確性。特征如果不好，很可能即使算法好，結果也不會盡如人意。

pandas可用於數據讀取、對數據的基本處理

sklearn有更多對於特征的處理的強大的接口

特征抽取：

特征抽取API：sklearn.feature_extraction

1.字典數據特征抽取

API：sklearn.feature_extraction.DictVectorizer

語法如下：

字典數據抽取：將字典中的類別數據分別進行轉換為特征數據。因此，如果輸入的是數組形式，並且有類別的這些特征，需要先轉換成字典數據，然後進行抽取。

2.文本特征抽取

Count

類：sklearn.feature_extraction.text.CountVectorizer

用法：

1.統計所有文章當中所有的詞，重復的隻看做一次
2.對每篇文章，在詞的列表裡面，統計每個詞出現的次數
3.單個字母不統計

註意：該方法默認不支持中文，每個中文漢字被視為一個英文字母，中間有空格或者逗號就會被分開，同樣的，一個漢字不予統計。（中文可使用jieba分詞：pip install jieba，使用：jieba.cut(“我是一個程序員”)）

3.文本特征抽取：tf-idf

上面的countvec不能處理中性詞比如“明天，中午，因為”等。於是可以使用tfidf方法。

tf：term frequency詞頻(和countvec方法一樣)

idf：inverse document frequency逆文檔頻率 log(總文檔數量/該詞出現的文檔數)

tf * idf 重要性程度

類：sklearn.feature_extraction.text.TfidfVectorizer

4.特征預處理：歸一化

特征預處理：通過特定的統計方法，將數據轉換為算法要求的數據

特征預處理API：sklearn.preprocessing

歸一化API：sklearn.preprocessing.MinMaxScaler

多個特征同等重要並且特征數據之間差距較大的時候，進行歸一化。但歸一化容易受異常點的影響，因此該方法魯棒性較差，隻適合傳統精確小數據場景。

5.特征預處理：標準化

將原始數據變換到均值為0，標準差為1的范圍內

標準化API：

sklearn.preprocessing.StandardScaler

標準化適合現代嘈雜大數據場景，在已有樣本足夠多的情況下比較穩定。

6.特征預處理：缺失值處理

插補：通過缺失值每行或每列的平均值、中位數來填補(一般按列填補)

API：sklearn.impute.SimpleImputer

數據當中的缺失值標記：默認為np.nan

以上就是python機器學習基礎特征工程算法詳解的詳細內容，更多關於python機器學習特征工程的資料請關註WalkonNet其它相關文章！

python機器學習基礎特征工程算法詳解

目錄

一、機器學習概述

二、數據集的構成

1.數據集存儲

2.可用的數據集

3.常用數據集的結構

三、特征工程

1.字典數據特征抽取

2.文本特征抽取

3.文本特征抽取：tf-idf

4.特征預處理：歸一化

5.特征預處理：標準化

6.特征預處理：缺失值處理

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

一、機器學習概述

二、數據集的構成

1.數據集存儲

2.可用的數據集

3.常用數據集的結構

三、特征工程

1.字典數據特征抽取

2.文本特征抽取

3.文本特征抽取：tf-idf

4.特征預處理：歸一化

5.特征預處理：標準化

6.特征預處理：缺失值處理

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆