python使用dabl幾行代碼實現數據處理分析及ML自動化
數據科學模型開發涉及各種組件,包括數據收集、數據處理、探索性數據分析、建模和部署。在訓練機器學習或深度學習模型之前,必須清洗數據集並使其適合訓練。通常這些過程是重復的,且占用瞭大部時間。
為瞭克服這個問題,今天我分享一個名為 dabl 的開源 Python 工具包,它可以自動化機器學習模型開發,包括數據預處理、特征可視化和分析、建模。歡迎收藏學習,喜歡點贊支持。
dabl
dabl 是一個數據分析基線庫,可以讓機器學習建模更容易,它包括各種特性,我們隻需幾行 Python 代碼就可以處理、分析和建模。
安裝
pip install dabl
1、數據預處理
dabl 在幾行 Python 代碼中自動執行數據預處理管道。dabl執行的預處理步驟包括識別缺失值、刪除冗餘特征以及理解特征的數據類型以進一步執行特征工程。
dabl檢測到的特征類型列表包括:
continuous
categorical
date
Dirty_float
Low_card_int
free_string
Useless
dabl 使用一行 Python 代碼將所有數據集特征自動歸類為上述數據類型。
df_clean = dabl.clean(df, verbose=1)
原始 Titanic 數據集有12個特征,dabl 會自動將它們分類為上述數據類型,以便進行進一步的特征工程。dabl還提供瞭根據需求更改任何特性的數據類型的功能。
db_clean = dabl.clean(db, type_hints={"Cabin": "categorical"})
可以使用 detect_types() 函數查看為每個特征分配的數據類型。
2、探索性數據分析
EDA 是數據科學模型開發生命周期的重要組成部分。Seaborn、Matplotlib 等是執行各種分析以更好地理解數據集的可視化庫。dabl 使 EDA 變得非常簡單且節省大量時間。
dabl.plot(df_clean, target_col="Survived")
dabl 中 plot()函數可以通過繪制各種圖來實現可視化,包括:
- 目標分佈的條形圖
- 散點對圖
- 線性判別分析
dabl 自動對數據集執行 PCA,並顯示數據集中所有特征的判別 PCA 圖。
3、建模
dabl 在訓練數據上訓練各種基線機器學習算法來加速建模工作流程,並返回性能最佳的模型。dabl 做出簡單的假設並為基線模型生成指標。
可以使用 dabl 中 SimpleClassifier() 函數進行建模,它很快就可以返回最佳模型。
結論
Dabl 是一個方便的工具,它使機器學習更易於容易和快速,你隻需幾行 Python 代碼就可以完成數據清理、特征可視化和基線模型的開發。
如果你想瞭解更多,可以查看GitHub: https://github.com/amueller/dabl
以上就是python使用dabl幾行代碼實現數據處理分析及ML自動化的詳細內容,更多關於dabl數據處理分析及ML自動化的資料請關註WalkonNet其它相關文章!
推薦閱讀:
- Python中seaborn庫之countplot的數據可視化使用
- python sns.countplot() 繪畫條形圖詳情
- 淺談哪個Python庫才最適合做數據可視化
- 學會Python數據可視化必須嘗試這7個庫
- 最強Python可視化繪圖庫Plotly詳解用法