python機器學習基礎特征工程算法詳解
一、機器學習概述
機器學習是從數據中,自動分析獲得規律(模型),並利用規律對未知數據進行預測。
二、數據集的構成
1.數據集存儲
機器學習的歷史數據通常使用csv文件存儲。
不用mysql的原因:
1、文件大的話讀取速度慢;
2、格式不符合機器學習要求的格式
2.可用的數據集
Kaggle:大數據競賽平臺、80萬科學傢、真實數據、數據量巨大
Kaggle網址:https://www.kaggle.com/datasets
UCI:360個數據集、覆蓋科學生活經濟等領域、數據量幾十萬
UCI數據集網址: http://archive.ics.uci.edu/ml/
scikit-learn:數據量較小、方便學習
scikit-learn網址:http://scikit-learn.org/stable/datasets/index.html#datasets
3.常用數據集的結構
特征值(用以判斷目標值所用的條件:比如房子的面積朝向等)+目標值(希望實現的目標:比如房子價格)
有些數據集可以沒有目標值。
三、特征工程
”將原始數據轉換為能更好地代表預測模型的潛在問題的特征“的過程,叫做特征工程,能夠提高對未知數據的預測準確性。特征如果不好,很可能即使算法好,結果也不會盡如人意。
pandas可用於數據讀取、對數據的基本處理
sklearn有更多對於特征的處理的強大的接口
特征抽取:
特征抽取API:sklearn.feature_extraction
1.字典數據特征抽取
API:sklearn.feature_extraction.DictVectorizer
語法如下:
字典數據抽取:將字典中的類別數據分別進行轉換為特征數據。因此,如果輸入的是數組形式,並且有類別的這些特征,需要先轉換成字典數據,然後進行抽取。
2.文本特征抽取
Count
類:sklearn.feature_extraction.text.CountVectorizer
用法:
1.統計所有文章當中所有的詞,重復的隻看做一次
2.對每篇文章,在詞的列表裡面,統計每個詞出現的次數
3.單個字母不統計
註意:該方法默認不支持中文,每個中文漢字被視為一個英文字母,中間有空格或者逗號就會被分開,同樣的,一個漢字不予統計。(中文可使用jieba分詞:pip install jieba,使用:jieba.cut(“我是一個程序員”))
3.文本特征抽取:tf-idf
上面的countvec不能處理中性詞比如“明天,中午,因為”等。於是可以使用tfidf方法。
tf
:term frequency詞頻(和countvec方法一樣)
idf
:inverse document frequency逆文檔頻率 log(總文檔數量/該詞出現的文檔數)
tf * idf 重要性程度
類:sklearn.feature_extraction.text.TfidfVectorizer
4.特征預處理:歸一化
特征預處理:通過特定的統計方法,將數據轉換為算法要求的數據
特征預處理API:sklearn.preprocessing
歸一化API:sklearn.preprocessing.MinMaxScaler
多個特征同等重要並且特征數據之間差距較大的時候,進行歸一化。但歸一化容易受異常點的影響,因此該方法魯棒性較差,隻適合傳統精確小數據場景。
5.特征預處理:標準化
將原始數據變換到均值為0,標準差為1的范圍內
標準化API:
sklearn.preprocessing.StandardScaler
標準化適合現代嘈雜大數據場景,在已有樣本足夠多的情況下比較穩定。
6.特征預處理:缺失值處理
插補:通過缺失值每行或每列的平均值、中位數來填補(一般按列填補)
API:sklearn.impute.SimpleImputer
數據當中的缺失值標記:默認為np.nan
以上就是python機器學習基礎特征工程算法詳解的詳細內容,更多關於python機器學習特征工程的資料請關註WalkonNet其它相關文章!
推薦閱讀:
- Python 機器學習工具包SKlearn的安裝與使用
- python 如何通過KNN來填充缺失值
- 19個Python Sklearn中超實用的隱藏功能分享
- python機器學習基礎線性回歸與嶺回歸算法詳解
- slearn缺失值處理器之Imputer詳析