當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

cola，一个做consensus clustering的R包

發布時間：2025/3/15 编程问答 51 豆豆

生活随笔收集整理的這篇文章主要介紹了 cola，一个做consensus clustering的R包小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

今天和大家分享是我這個月發表的一個Bioconductor工具，叫做cola。它提供一個普遍的框架，用來做consensus clustering。Bioconductor鏈接為https://bioconductor.org/packages/cola/，論文鏈接為https://doi.org/10.1093/nar/gkaa1146。

在cola框架中，consensus clustering被標準化為若干個步驟，其中某些關鍵步驟中，用戶可以自定義自己的方法。如下圖所示：

我提出了一個簡單但是有效的方法，稱作為ATC方法，用來提取有用的feature，用以clustering。這個ATC方法是基于輸入矩陣的全局相關系。你可以看到在下圖中（第一行的四個熱圖），四個不同方法所提取的top features，ATC方法提取的top feature能夠更有效的生成穩定的clustering（第四個熱圖）。

我同樣提出建議使用shperical k-means clustering （skmeans）對ATC所提取的features進行聚類，我展示了skmeans一般來說能夠揭示更多的subgroups，并且分類具有更高的穩定性。

在論文中，我使用了超過400個公共數據集對不同的聚類方法進行了比較。我也對consesus clustering中的關鍵參數的選擇進行了系統性的比較，例如是對行進行隨機抽取還是對列進行隨機抽取，和隨機抽取的次數對結果的影響。

在論文中，我應用cola在基因表達數據和DNA甲基化數據上。結果建議對不同類型的數據應該選擇不同的參數和方法，不能寬泛的使用相同的數據（例如缺省的參數）。

cola包支持同時運行多個聚類方法，并且cola提供了大量的函數用以對結果進行比較。下圖是cola所生成一些圖：

cola提供了強大的函數集，但是同時也提供了一個簡單易用的用戶接口。也就是說，在大多數情況下，用戶只需要執行下面兩行代碼，然后cola會自動運行所有分析，并且將所有結果生成到一個HTML報告中，并且這個HTML報告中也包含了代碼，是完全可以reproducable的。

rl?=?run?all?consensus?partition?methods(matrix,?...) cola?report(rl,?...)

最后，歡迎大家使用！

往期精品(點擊圖片直達文字對應教程)

后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集

（請備注姓名-學校/企業-職務等）

總結

以上是生活随笔為你收集整理的cola，一个做consensus clustering的R包的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Linux下那些查找命令
下一篇： Science亮点！ExSeq：完整生物