pvrect r语言 聚类_R语言常用统计方法包+机器学习包(名称、简介)
生活随笔
收集整理的這篇文章主要介紹了
pvrect r语言 聚类_R语言常用统计方法包+机器学习包(名称、简介)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
上期幫大家盤點了一下R中常用的可視化包,這期將簡要盤點一下關于統計分析與機器學習的R包,并通過簡要介紹包的特點來幫助讀者深入理解可視化包。
本文作者為“食物鏈頂端”學習群中的小伙伴,感謝他們的分享。
話不多說我們一起來看看吧!
1. survival
簡介:survival是目前用的最多的做生存分析的包,Surv:用于創建生存數據對象,survfit:創建KM生存曲線或是Cox調整生存曲線,survdiff:用于不同組的統計檢驗,coxph:構建COX回歸模型,cox.zph:檢驗PH假設是否成立,survreg:構建參數模型,包括Km和cox分析。
缺點:圖形不夠美觀。
2. glmnet簡介:glmnet是做lasso分析的R包,包括二分類logistic回歸模型,多分類logistic回歸模型,Possion模型,Cox比例風險模型,svm模型,是目前用的最多的lasso分析的包,簡單易用,通過選擇1se lambda為最優參數,廣泛應用在篩選基因的研究中。缺點:優化下速度。3. randomForests簡介:randomForest 包提供了利用隨機森林算法解決分類和回歸問題的功能。使用起來比較簡單,其中randomForest()函數用于構建隨機森林模型,importance()函數用于計算模型變量的重要性,MDSplot()函數用于實現隨機森林的可視化,rfImpute()函數可為存在缺失值的數據集進行插補(隨機森林法),得到最優的樣本擬合值,treesize()函數用于計算隨機森林中每棵樹的節點個數。缺點:據我所知這是用R做隨機森林最常用(可能是唯一)的R包,比用python容易上手,硬要說缺點的話就是圖形美觀度,但可以后期AI調整。4. rms簡介:全稱是recession modeling strategy,包如其名,Harrell教授給我們提供了大量的好用便捷的函數進行建模及模型的評價與檢驗!最有名的是該包最先提供了畫列線圖函數,這幾乎是現在模型可視化必備!缺點:有一些圖形函數參數不夠!5. e1071簡介:e1071是用于做支持向量機分析的R包,SVM旨在多維空間中找到一個超平面(hyperplane),該平面能夠將全部對象分成最優的兩類,其實也可以多類,但是效果不是很好。e1071名字比較特殊簡單,但是功能絕對強大,包括優化的tune.svum,包括了多種核函數,簡單方便。缺點:缺乏特征選擇的功能。6. 回歸包 Logistic簡介:當通過一系列連續型或類別型預測變來預測二值型結果變量時,Logistic回歸是一個非常有用的工具。Logistic 回歸是二分類任務的首選方法。它輸出一個 0 到 1 之間的離散二值結果。簡單來說,它的結果不是 1 就是 0。缺點:我們不能用 logistic 回歸來解決非線性問題,因為它的決策面是線性的。7. caret簡介:caret包全稱是(Classificationand Regression Training),應用之一就是數據預處理,比如我們常用的拆分訓練集和驗證集。caret包應用之二:特征選擇,比如我們的svm-rfe這種特征選擇就是可以幫助我們在svm的基礎上進行選擇最重要的特征,彌補e1071包的不租,caret包還可以參與建模與參數優化和模型預測與檢驗,里面功能很強大。缺點:可能需要做點和內部函數相關的可視化功能。8. kmeans聚類簡介:k(均值)聚類屬于扁平聚類算法,即進行一層劃分得到k個簇,與層次聚類算法開始不需要決定簇數不同,k均值聚類需要用戶事先確定好簇個數,因為構建一顆聚類樹是非常耗時的事情,所以k均值聚類算法的效率要優于層次聚類。可使用ggfortify包進行聚類結果的可視化展示。缺點:應該屬于無監督學習,分組效果略差。9. nnet簡介:如果你做過多分類的變量的相關模型的分析,那么你一定用過nnet包,它可以幫助你設置啞變量。另外nnet還是一個人工神經網絡的算法包,該算法提供了傳統的前饋反向傳播神經網絡算法的實現。一個nnet函數就可以實現神經網絡的構建,整個過程會一直重復直至擬合準則值與衰減項收斂。缺點:這個函數的運行速度可能還需要進一步的優化。10. rpart簡介:rpart是RecursivePartitioning and Regression Trees的簡稱,rpart可以用于決策樹的構建,修剪,圖形展示,plotcp函數可視化或者printcp函數選取合適cp值。R語言中關于決策樹建模,最為常用的有兩個包,一個是rpart包,另一個是party包,rpart還更友好,結果簡單明了些。缺點:優化速度,然后rpart包的內置繪圖功能需要更加美觀。11. mlr簡介:mlr包就是類似python的sklearn庫。囊括蓋分類、回歸、生存分析、聚類等功能的可擴展機器學習工作框架。提供了一個對于160多個基礎學習包的統一接口,包括了“元算法”和模型選擇技術,并擴展了基本學習算法的功能,比如超參數調參、特征選擇、集成結構等。同時并行化計算也是其天然支持的一項技能。雖然Caret包和CMA包融入了數據預處理和變量選擇方法,但是MLR可以無縫同時用這些方法進行調節。缺點:速度提升是一個需要努力的方向,可視化也需要增加。12. gbm簡介:gbm包是梯度提升回歸樹的實現。梯度提升回歸樹縮寫是GBRT,全稱是Gradient Boosting Regression Tree, 有時也叫做GBDT,是一個樹形算法,數據無需歸一化,其實用起來非常想glmet這個包,方法包括OOB,test,cv,一般選擇cv就行,可以方便的選擇選擇最適的回歸樹個數。缺點:可視化功能不是很好。13. nlme簡介:是R語言安裝時默認的包,可以分析分層的線性混合模型和非線性模型。并且可以處理更復雜的線性和非線性模型,可以定義方差協方差結構,可以在廣義線性模型中定義幾種分布函數和連接函數。缺點:數據量大時速度很慢,不能處理多變量數據。14. ASReml-R簡介:這個R包是一個主要用來做遺傳分析的R包,包括多年份平衡與不平衡試驗數據分析,重復測量數據分析,平衡與不平衡試驗設計數據分析,遺傳參數評估等,替代了ASReml這個軟件,這個軟件本來原來也是替代SAS和SPSS的部分功能。缺點:收費。15. Mass簡介:其實是為了介紹一種降維算法——LDA線性判別分析,LDA可以通過Mass包來建模。LDA和PCA都是線性降維技術,通用的LDA與PCA相似,但是除了找到使數據方差最大的成分軸外,還對最大化多個類之間距離的軸感興趣。此外,PCA屬于“無監督”算法,降維時不關注數據的分類,目標是找到代表數據集最大化方差方向的一系列特征向量,也就是主成分,但是LDA屬于“有監督”聚類,不僅關注類別關系,還可以通過線性判別式定義一系列表示最大化類別之間距離的正交軸。缺點:對各組數據分布模式有著嚴格要求,操作比較麻煩。16. kernlab簡介:這個R包是一個主要用來做SVM的R包,功能類似e1071,使用bsvm和libsvm庫中的優化方法,得以實現svm算法。對于分類,有C-SVM分類算法和v-SVMz這2類分類算法,并且還包括C分類器的有界約束的版本。對于回歸,提供了2種回歸方法,ε-SVM、v-SVM回歸算法。對于多類分類,有一對一方法和原生多類分類方法。缺點:同樣可以考慮把svm的特征選擇加進來。17. mboost簡介:mboost包提供基于提升(boosting)的機器學習算法和模型。可以用于用于廣義線性、加性和非參數模型的可擴展的boosting框架。大概是3步完成,首先是最小乘方或者回歸樹作為基本學習器;然后梯度下降算法(提升)用于優化通用的風險函數,最后對于潛在的高維數據擬合通用的線性、可加性和交互性模型。缺點:可視化不美觀。18. xgboost簡介:XGBoost 是Extreme Gradient Boosting 的縮寫,在競賽平臺Kaggle很流行。xgboost包使用efficient trees作為基學習器來實現tree-based boosting。XGBoost 算法是一種現在在數據科學競賽的獲勝方案很流行的算法,一般不管怎么樣,都先用這個方法來一次看看效果,一般都不錯。XGBoost僅適用于數值型向量,我們可以利用熱編碼轉換。缺點:速度不夠快。19. veganvegan 包是由芬蘭Oulu大學生物系Oksanen等幾位數量生態學者編寫的R包。Vegan包提供各種群落生態學分析工具,包括常用的PCA,DCA,RDA和CCA等方法,并且打包好了關于這些方法的計算和檢驗的代碼,甚至還包括了大部分多元分析方法,操作簡便,代碼簡單。缺點: 圖片真的丑,速度也挺慢,可以出來結果后用ggplot2重新可視化結果。20. CatBoost簡介:CatBoost全稱是CategoricalBoosting,該算法類似于XGBoost,LightGBM的Gradient Boosting算法,這個算法的創新之處主要是,首先對于離散特征值的處理,采用了ordered TS(target statistic)的方法。第二是提供了兩種訓練模式:Ordered和Plain。里面主要包括catboost.train、catboost.predict、calc_accuracy等函數。缺點:基本上不提供可視化結果的函數。21. h2o包簡介:通過連接外部服務器,支持R語言和GPU結合加速深度學習。現目前R語言應用在深度學習的相關包數量不多,h2o支持多線程分析,加快深度學習的運行速度。是人工神經網絡ANN分析的利器。使用h2o.init()連接到h2o平臺,然后就可以開始你的深度學習之旅了~缺點:對于卷積神經網絡建模方法仍然不能很好的使用。解螺旋《生信全書》上冊體系課原價299元2020立一個flag“我一定要掌握它!”掃碼領100元優惠,僅限15人哦!???完
總結
以上是生活随笔為你收集整理的pvrect r语言 聚类_R语言常用统计方法包+机器学习包(名称、简介)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: php短信android,Android
- 下一篇: android 九宫格封装,Androi