生物信息学有哪些值得参与的开源项目?
生活随笔
收集整理的這篇文章主要介紹了
生物信息学有哪些值得参与的开源项目?
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
沒人提picard和gatk嘛。我看過一些開源項目的源碼,在我看過的源碼中,私以為picard和gatk的架構和測試和異常處理和代碼質量相當之高,可以說達到了it級別。完爆類似varscan,mirdeep這種二三流的好幾條街。想想mapsplice的索引居然還要一個染色體一個文本我也是醉了。gatk是個框架,在該框架下只需要很少的代碼就可以實現一系列的工作譬如查找snp之類的--當然這個人家已經實現了。話說c的我看不懂不然很想去觀摩李恒大神的bwa,估計那個也是神作,一點點大小性能不輸n倍大的bowtie2。以上,這幾個貨都是broad institution的啊,膜拜broad中,個人認為是業內最強生物信息。話又說回來,如果不局限于生物信息,spring-io和hadoop也是不錯的開源項目哦,特別是Hadoop yarn,那個實現的真是,好吧其實我看不懂啦:)
生物信息領域值得參與一下的開源項目我覺得挺多的,沒整理過,說兩個我比較熟悉的Bioconductor和Cytoscape。Bioconductor: 這玩意其實是很多生物相關的R語言擴展包的集合,在國內外的生物信息學術界和工業界都有廣泛的使用。Bioconductor中一些核心的包構建了關鍵生物數據的類,于是各種分析方法都基于這些類開發出來,各種生物實驗數據和注釋注釋以這些類的形式導入到Bioconductor中,既方便處理生物數據,也方便方法學開發者測試方法。所以,參與Bioconductor項目也有很多形式:1.1 自己開發一個包,提交給Bioconductor:這個事情對于非生物或生物信息背景的人來說,麻煩在于得先找到需求。然后就是開發和維護了。@elemenTY 同學ggbio包就是這個情況。1.2 參與某個包的開發。鑒于還沒有fork和pull的機制,只能自己發郵件找開發者了。1.3 整理注釋數據或者經典的實驗數據導入到Bioconductor項目——這事情似乎不是樓主擅長的。1.4 翻譯:Bioconductor不僅僅是個軟件包的集合,還有很多教程和學習資料,非常值得傳播。參與Bioconductor項目R語言是必須得,最好還能整整C++,C,Java之類的。其實,我覺得參與R語言項目本身也是不錯的:)Cytoscape:一個Java開發的開源的復雜網絡可視化和分析軟件,最初是用于生物網絡分析的。可以參與軟件本身的開發,也可以為其開發插件。核心開發團隊還為Cytoscape開發了App Store~~讀書的時候開發過一款Cytoscape上用于網絡聚類分析的插件,還有用戶用這個插件作分析,發了Nature Genetics的論文。我覺得,參與開源軟件本來就是要靠興趣。但如果不了解需求,或者沒有遇到需求,就很難有興趣。所以,最好的辦法應該是找個生物信息相關的項目或工作,然后去理解其中的任務和需求,再看看是否能改進其中的開源軟件或者是自己發起一個開源項目。生物信息領域的主流軟件幾乎都是開源的。更新一下:這個領域的開源除了貢獻代碼,還有一種方法是貢獻數據——把自己的基因組測了,連同一些表型信息一起開放出來:)@西貝 在準備干這個事情
Python 的計算生物學處理包 Biopython: http://biopython.org/wiki/Main_Page還是 Google Summer of Code 項目,值得參與另,如果覺得代碼能力不足的話,可以先貢獻翻譯比如 Biopython 文檔的中文版:https://github.com/bigwiv/Biopython-cn
接@unionx 所說,Google Summer of Code是一個很好的參加開源項目的機會,當然包括生物信息開源項目。項目只針對學生申請,順利完成項目會有數千美刀的獎勵(14年好像是6000$)。我13年的時候參加了GSoC,搞了一個biopython的小項目。下面根據我的了解大概介紹一下GSoC的情況,希望能幫到想參加的童鞋:-----------項目參與:1. 谷歌:參與組織,提供平臺,提供獎金;2. 開源組織:提供項目(一般是某個大型開源項目里面的某個具體化的小任務)給學生申請,因為每個項目都需要學生在大概三個月的時間內多帶帶完成,所以不會太大;3. 學生:和開源組織接觸,獨立完成開源組織提供的項目。具體流程1. 開源組織申請:開源組織提供相應的項目(一個或多個)向谷歌進行申請,谷歌篩選并公布最終的參與結果。這個階段包括階段前后的間隔時間,可以先了解各個組織所提供的項目,尋找感興趣和有把握的項目,當然你如果有idea,還可以提供自己的項目。找準項目之后,盡早和項目提供者接觸,在社區里面進行交流,自我介紹,說明對項目的想法,展示自己的能力,總之讓組織者覺得你有能力完成該項目。另外需要注意的,這里的組織和開源項目最終可能不在一個。需要注意的是:雖然申請時,谷歌只會讓你參與一個項目,但是你可以選擇和多個項目接觸。因為,這些項目所對應的組織可能會被谷歌淘汰,說不定就包括你想參與的項目。當然,某些項目也會在自己的組織被淘汰后加入進別的組織。如Bioperl、Biopython、Biojava等項目每年會以OBF組織進行申請,但如果OBF被淘汰,某些項目會加入NESCent,反之亦然。2. 學生申請:在官網填寫表格申請,完善個人信息,教育背景,郵寄地址等等,當然需要能提供學生證或相應證明,只要是在申請時還未畢業就行(我就是這種情況)。提交一個完整的Proposal,大概寫的內容是:準備參與的項目,為什么想參加,為什么你而不是別人能完成,計劃怎樣完成(具體的工作時間表)。這個Proposal需要在申請開始之前就和對應的項目組去交流,那些老師會幫助你完善。不要想著申請多個項目,一個是沒那么多時間和精力,另外谷歌在這個階段也會有一個嚴格的查重步驟。3. 接觸交流:這個階段是項目導師和學生交流的階段,也是申請篩選和公布結果的階段。每個項目的導師會和申請的學生一個一個接觸,使用Skype、谷歌hangout之類的視頻聊天工具,最終每個項目選擇一個學生。當然會問一些完成項目相關的技術問題,以及是否希望完成項目后繼續為社區做共享的問題。好好準備吧,之前詳細了解過項目,精心準備過proposal應該問題都不大。4. 編寫代碼:按照計劃寫代碼吧,定期在社區更新項目進展。當然計劃趕不上變化,實現方式的更改、計劃的變更及時在線更新,保證充足的時間,遇到問題和導師交流。整個階段持續大概三個月時間,中間會有中期考核,最后有個終期考核,考察項目的完成情況。會上傳一些資料到GSoC官網,但過不過都是由導師和項目組來決定。可以看到整個流程中基本上是和開源項目組織在交流,學生申請和項目通過與否都決定于項目組,谷歌只是提供平臺和資金,申請條件審核也不會存在什么大問題。所以,早點去接觸哪些開源組織吧。下面列出一些常參加GSoC的開源組織和他們的項目頁面。常見生物信息開源組織OBF: 開源生物信息基金會,各種Bioxxx項目,BioPerl、BioPython、BioJava、BioRuby、BioSQL。GSOC地址: http://www.open-bio.org/wiki/Google_Summer_of_Code ;NESCent: 項目多與進化相關,由世界各地的實驗室項目加入、常參與的有 OpenTreeofLife 、PhyML、JalView、PhyloGeoRef、NeXML、TreeBASE等等,許多小工具。GSOC地址: http://informatics.nescent.org ... _Code;Bioconductor: 這個就不用介紹了。GSOC地址: http://master.bioconductor.org ... 2014/ ;NRNB: 也不用說了,Cytoscape。GSOC地址: http://nrnb.org/gsoc.html;Gnome Informatics: 許多有名的項目,Galaxy、GMOD、GBrowse、JBrowse、Biomart、Chado、Wormbase。GSOC地址: http://gmod.org/wiki/GSoC;Bio4j: 基于圖的生物信息數據庫平臺。GSOC地址: https://github.com/bio4j/gsoc14/wiki/ideas;Biojs: EBI出的生物數據可視化JS庫。GSOC地址: https://rostlab.org/services/biojs/gsoc.html;Biomedical Informatics, Emory University: 項目比較雜,但貌似年年中。GSOC地址: https://docs.imphub.org/display/PS/Google Summer of Code - 2014;Crowdsourcing Biology: BioGPS項目。GSOC地址: http://sulab.org/gsoc;包裹與獎金 谷歌會分兩次發包裹,三次發獎金。Coding開始后寄過來銀行卡、筆和筆記本、活動貼紙,銀行卡發放500$;中期考核通過發放剩下獎金的一半,否則沒有;最終考核通過,發放最后一半獎金,并郵寄通過的證書與紀念衫。----------就寫這么多,希望有點用處。今年的GSoC還有一個月就要開始了,感興趣的趕緊行動吧。 https://www.google-melange.com ... c2015
生物信息領域值得參與一下的開源項目我覺得挺多的,沒整理過,說兩個我比較熟悉的Bioconductor和Cytoscape。Bioconductor: 這玩意其實是很多生物相關的R語言擴展包的集合,在國內外的生物信息學術界和工業界都有廣泛的使用。Bioconductor中一些核心的包構建了關鍵生物數據的類,于是各種分析方法都基于這些類開發出來,各種生物實驗數據和注釋注釋以這些類的形式導入到Bioconductor中,既方便處理生物數據,也方便方法學開發者測試方法。所以,參與Bioconductor項目也有很多形式:1.1 自己開發一個包,提交給Bioconductor:這個事情對于非生物或生物信息背景的人來說,麻煩在于得先找到需求。然后就是開發和維護了。@elemenTY 同學ggbio包就是這個情況。1.2 參與某個包的開發。鑒于還沒有fork和pull的機制,只能自己發郵件找開發者了。1.3 整理注釋數據或者經典的實驗數據導入到Bioconductor項目——這事情似乎不是樓主擅長的。1.4 翻譯:Bioconductor不僅僅是個軟件包的集合,還有很多教程和學習資料,非常值得傳播。參與Bioconductor項目R語言是必須得,最好還能整整C++,C,Java之類的。其實,我覺得參與R語言項目本身也是不錯的:)Cytoscape:一個Java開發的開源的復雜網絡可視化和分析軟件,最初是用于生物網絡分析的。可以參與軟件本身的開發,也可以為其開發插件。核心開發團隊還為Cytoscape開發了App Store~~讀書的時候開發過一款Cytoscape上用于網絡聚類分析的插件,還有用戶用這個插件作分析,發了Nature Genetics的論文。我覺得,參與開源軟件本來就是要靠興趣。但如果不了解需求,或者沒有遇到需求,就很難有興趣。所以,最好的辦法應該是找個生物信息相關的項目或工作,然后去理解其中的任務和需求,再看看是否能改進其中的開源軟件或者是自己發起一個開源項目。生物信息領域的主流軟件幾乎都是開源的。更新一下:這個領域的開源除了貢獻代碼,還有一種方法是貢獻數據——把自己的基因組測了,連同一些表型信息一起開放出來:)@西貝 在準備干這個事情
Python 的計算生物學處理包 Biopython: http://biopython.org/wiki/Main_Page還是 Google Summer of Code 項目,值得參與另,如果覺得代碼能力不足的話,可以先貢獻翻譯比如 Biopython 文檔的中文版:https://github.com/bigwiv/Biopython-cn
接@unionx 所說,Google Summer of Code是一個很好的參加開源項目的機會,當然包括生物信息開源項目。項目只針對學生申請,順利完成項目會有數千美刀的獎勵(14年好像是6000$)。我13年的時候參加了GSoC,搞了一個biopython的小項目。下面根據我的了解大概介紹一下GSoC的情況,希望能幫到想參加的童鞋:-----------項目參與:1. 谷歌:參與組織,提供平臺,提供獎金;2. 開源組織:提供項目(一般是某個大型開源項目里面的某個具體化的小任務)給學生申請,因為每個項目都需要學生在大概三個月的時間內多帶帶完成,所以不會太大;3. 學生:和開源組織接觸,獨立完成開源組織提供的項目。具體流程1. 開源組織申請:開源組織提供相應的項目(一個或多個)向谷歌進行申請,谷歌篩選并公布最終的參與結果。這個階段包括階段前后的間隔時間,可以先了解各個組織所提供的項目,尋找感興趣和有把握的項目,當然你如果有idea,還可以提供自己的項目。找準項目之后,盡早和項目提供者接觸,在社區里面進行交流,自我介紹,說明對項目的想法,展示自己的能力,總之讓組織者覺得你有能力完成該項目。另外需要注意的,這里的組織和開源項目最終可能不在一個。需要注意的是:雖然申請時,谷歌只會讓你參與一個項目,但是你可以選擇和多個項目接觸。因為,這些項目所對應的組織可能會被谷歌淘汰,說不定就包括你想參與的項目。當然,某些項目也會在自己的組織被淘汰后加入進別的組織。如Bioperl、Biopython、Biojava等項目每年會以OBF組織進行申請,但如果OBF被淘汰,某些項目會加入NESCent,反之亦然。2. 學生申請:在官網填寫表格申請,完善個人信息,教育背景,郵寄地址等等,當然需要能提供學生證或相應證明,只要是在申請時還未畢業就行(我就是這種情況)。提交一個完整的Proposal,大概寫的內容是:準備參與的項目,為什么想參加,為什么你而不是別人能完成,計劃怎樣完成(具體的工作時間表)。這個Proposal需要在申請開始之前就和對應的項目組去交流,那些老師會幫助你完善。不要想著申請多個項目,一個是沒那么多時間和精力,另外谷歌在這個階段也會有一個嚴格的查重步驟。3. 接觸交流:這個階段是項目導師和學生交流的階段,也是申請篩選和公布結果的階段。每個項目的導師會和申請的學生一個一個接觸,使用Skype、谷歌hangout之類的視頻聊天工具,最終每個項目選擇一個學生。當然會問一些完成項目相關的技術問題,以及是否希望完成項目后繼續為社區做共享的問題。好好準備吧,之前詳細了解過項目,精心準備過proposal應該問題都不大。4. 編寫代碼:按照計劃寫代碼吧,定期在社區更新項目進展。當然計劃趕不上變化,實現方式的更改、計劃的變更及時在線更新,保證充足的時間,遇到問題和導師交流。整個階段持續大概三個月時間,中間會有中期考核,最后有個終期考核,考察項目的完成情況。會上傳一些資料到GSoC官網,但過不過都是由導師和項目組來決定。可以看到整個流程中基本上是和開源項目組織在交流,學生申請和項目通過與否都決定于項目組,谷歌只是提供平臺和資金,申請條件審核也不會存在什么大問題。所以,早點去接觸哪些開源組織吧。下面列出一些常參加GSoC的開源組織和他們的項目頁面。常見生物信息開源組織OBF: 開源生物信息基金會,各種Bioxxx項目,BioPerl、BioPython、BioJava、BioRuby、BioSQL。GSOC地址: http://www.open-bio.org/wiki/Google_Summer_of_Code ;NESCent: 項目多與進化相關,由世界各地的實驗室項目加入、常參與的有 OpenTreeofLife 、PhyML、JalView、PhyloGeoRef、NeXML、TreeBASE等等,許多小工具。GSOC地址: http://informatics.nescent.org ... _Code;Bioconductor: 這個就不用介紹了。GSOC地址: http://master.bioconductor.org ... 2014/ ;NRNB: 也不用說了,Cytoscape。GSOC地址: http://nrnb.org/gsoc.html;Gnome Informatics: 許多有名的項目,Galaxy、GMOD、GBrowse、JBrowse、Biomart、Chado、Wormbase。GSOC地址: http://gmod.org/wiki/GSoC;Bio4j: 基于圖的生物信息數據庫平臺。GSOC地址: https://github.com/bio4j/gsoc14/wiki/ideas;Biojs: EBI出的生物數據可視化JS庫。GSOC地址: https://rostlab.org/services/biojs/gsoc.html;Biomedical Informatics, Emory University: 項目比較雜,但貌似年年中。GSOC地址: https://docs.imphub.org/display/PS/Google Summer of Code - 2014;Crowdsourcing Biology: BioGPS項目。GSOC地址: http://sulab.org/gsoc;包裹與獎金 谷歌會分兩次發包裹,三次發獎金。Coding開始后寄過來銀行卡、筆和筆記本、活動貼紙,銀行卡發放500$;中期考核通過發放剩下獎金的一半,否則沒有;最終考核通過,發放最后一半獎金,并郵寄通過的證書與紀念衫。----------就寫這么多,希望有點用處。今年的GSoC還有一個月就要開始了,感興趣的趕緊行動吧。 https://www.google-melange.com ... c2015
總結
以上是生活随笔為你收集整理的生物信息学有哪些值得参与的开源项目?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《If(翻自 丁可) 》原版歌词 《If
- 下一篇: 怀孕多久可以用试纸测出来?14天可以吗?