机器学习实战总结
本博客主要摘錄了《機器學習實戰》里面對各個算法的總結
K-近鄰算法
優點
精度高、對異常值不敏感、無數據輸入假定
缺點
計算復雜度高、空間復雜度高
適用范圍
數值型和標稱型
決策樹
優點
計算復雜度不高,輸出結果易于理解,對中間值的缺失不敏感,可以處理不相關特征數據
缺點
可能會產生過度匹配的問題
適用范圍
數值型和標稱型
樸素貝葉斯
優點
在數據較少的情況下仍然有效,可以處理多類別問題
缺點
對于輸入數據的準備方式比較敏感
適用范圍
標稱型數據
邏輯回歸
優點
計算代價不高,容易理解和實現
缺點
容易欠擬合,分類精度可能不高
適用范圍
數值型和標稱型數據
支持向量機
優點
泛化錯誤率低,計算開銷不大,容易解釋
缺點
對參數調節和核函數的選擇敏感,原始分類器不加修飾僅適用于處理二類問題
適用范圍
數值型和標稱型數據
AdaBoost
優點
泛化錯誤率低,易編碼,可以應用在大部分分類器上,無參數調整
缺點
對離群點敏感
適用范圍
數值型和標稱型數據
線性回歸
優點
結果易于理解,計算上不復雜
缺點
對非線性的數據擬合不好
適用范圍
數值型和標稱型數據
樹回歸
優點
可以對復雜和非線性的數據建模
缺點
結果不易理解
適用范圍
數值型和標稱型數據
K-均值
優點
容易實現
缺點
可能收斂到局部最小值,在大規模數據集上收斂較慢
適用范圍
數值型數據
Apriori算法
優點
易編碼實現
缺點
在大數據集上可能較慢
適用范圍
數值型和標稱型數據
FP-growth算法
優點
一般要快于Apriori
缺點
實現比較困難,在某些數據集上性能會下降
適用范圍
標稱型數據
PCA
優點
降低數據的復雜性,識別最重要的多個特征
缺點
不一定需要,且可能損失有用信息
適用范圍
數值型數據
SVD
優點
簡化數據,去除噪聲,提高算法結果
缺點
數據的轉換可能難以理解
適用范圍
數值型數據
MapReduce
優點
可在短時間內完成大量工作
缺點
算法必須經過重寫,需要對系統工程有一定的理解
適用范圍
數值型和標稱型數據
轉載于:https://www.cnblogs.com/-Sai-/p/7783476.html
總結
- 上一篇: 洛谷【p2817】 宋荣子的城堡
- 下一篇: Alpha 冲刺 (7/10)