这个Nature推荐的代码海洋竟然有文章作者上传的所有可重现性脚本,涉及单细胞、微生物组、转录组分析、机器学习等相关
可重復(fù)性研究一直是學(xué)術(shù)發(fā)表希望實(shí)現(xiàn)的方式,更有助于判斷研究結(jié)果的準(zhǔn)確性和幫助后人以此為基礎(chǔ)進(jìn)行深入研究。計算分析類型的研究,是能夠比較容易實(shí)現(xiàn)可重復(fù)性的 - 只要分享代碼和數(shù)據(jù)就可以 (當(dāng)然配置運(yùn)行環(huán)境也需要一定的功底),如使用R markdown或Bookdown?或者?Jupyter notebook等,像宏基因組主編劉永鑫老師的植物根系菌群分析的NBT文章那樣,把代碼存放在Github上面也是一種比較好的方式。
CodeOcean是Nature推薦過的一個可重現(xiàn)性代碼共享平臺。其實(shí)質(zhì)類似于一個云平臺,可以直接在上面配置環(huán)境、開展項目分析,合作者之間協(xié)作并存放數(shù)據(jù)和代碼,發(fā)表時提供給雜志社或讀者,實(shí)現(xiàn)從原始數(shù)據(jù)到文章圖表的整個可重復(fù)過程,并且可以進(jìn)行衍生分析,或者上傳自己的文件數(shù)據(jù)測試。而且有部分雜志要求作者發(fā)表時要把自己的代碼和數(shù)據(jù)上傳到CodeOcean上面。
我們以2019年9月份發(fā)表在Nature microbiology上的一篇文章Life cycle progression and sexual development of the apicomplexan parasite Cryptosporidium parvum為例,查看下其代碼的可重用性使用方式。作者在CodeOcean上面提供了其從原始數(shù)據(jù)到基因定量、差異分析、火山圖、熱圖、功能注釋用到的Bash和R的代碼,只需要在右側(cè)點(diǎn)一下Reproducible Run按鈕就可以重現(xiàn)分析。(Note: 從Rmarkdown中可以看到Bash相關(guān)代碼默認(rèn)沒有執(zhí)行,因為沒有存放原始數(shù)據(jù),可以自己從NCBI的SRA數(shù)據(jù)庫下載,修改eval=T再繼續(xù)分析)
具體可參考微信公眾號上有錄制的視頻。
從視頻中可以看到,CodeOccean不是一個簡單的代碼存放平臺,是可以根據(jù)自己的需求配置環(huán)境、安裝軟件、R/Python包、存儲數(shù)據(jù)和運(yùn)行程序的平臺,相當(dāng)于一臺共享的云服務(wù)器。所有的配置信息也都在對應(yīng)的文件中有記錄,如果我們想用于分析自己的數(shù)據(jù),就在自己服務(wù)器配置對應(yīng)的環(huán)境、下載代碼和數(shù)據(jù)進(jìn)行運(yùn)行即可。
瀏覽過程中,發(fā)現(xiàn)一篇Microbiome上發(fā)表的人和狗腸道菌群的比較文章,作者提供了全部分析的Python代碼,腳本很多,是學(xué)習(xí)宏基因組分析和Python的好文檔。
還有2019年發(fā)表在eLife上的一篇單細(xì)胞分析的文章,Identifying Gene Expression Programs of Cell-type Identity and Cellular Activity with Single-Cell RNA-Seq,用Jupyter notebook的形式列出了各個分析部分的所有代碼,還貼心的提供了目錄。
更多文章和代碼等著你去探索了。
https://codeocean.com/
總結(jié)
以上是生活随笔為你收集整理的这个Nature推荐的代码海洋竟然有文章作者上传的所有可重现性脚本,涉及单细胞、微生物组、转录组分析、机器学习等相关的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 马上开课 | 临床基因组学数据分析实战助
- 下一篇: 史上最全AI论文集结:近千篇论文分门别类