string数据库使用和实践第一部分string数据库介绍
生活随笔
收集整理的這篇文章主要介紹了
string数据库使用和实践第一部分string数据库介绍
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
背景
為什么要尋找蛋白質互做關系?
因為只有正確地發現和注釋細胞中的所有功能性的相互作用關系,才能對細胞的功能進行系統層面的學習和理解。
大家在收集和展現蛋白質相互作用的信息上,一直在努力地跟上相互作用關系探索的步伐
近年來,無論是在實驗觀測和計算機預測技術都得到了顯著的進步。但是,蛋白質蛋白質相互作用的信息比較容易出錯,而且乣相當大的工作量來進行注釋
資源分類?
1有些數據庫,他們的主要目的是收集和策展與蛋白質-蛋白質相互作用直接相關的實驗證據
2.另外還有些數據庫會通過功能分組,將蛋白質分為代謝、信號或轉錄途徑等這些更加廣義的角度來了解蛋白質之間的關聯
3.最后就是第三類資源,通過嘗試使用多種計算的技術來預測新的蛋白質-蛋白質之間的相關性,從而彌補前兩種數據庫的不足之處
string數據庫正是一個整合提供這三種蛋白質-蛋白質關聯性證據的平臺
string database介紹
string(search tool for the retrival of interacting genes/proteins)基因、蛋白質相互作用關系檢索工具
它能夠幫助用戶輕松獲取獨特的,覆蓋范圍廣的實驗以及預測的相互作用關系信息
string提供的相互作用關系主要基于confidence score(可靠指數),以及其他附屬信息,比如提供蛋白質域和3D結構
string目前的9.1版本,包括1100+個物種的5200+萬蛋白質
聯合開發的機構包括:CPR,EMBL,SIB,KU,TUD,UZH
功能
1.主要目的是構建蛋白質蛋白質相互作用網絡
2.該網絡可以用于過濾和評估功能性基因組學的數據,以及為注釋蛋白質的結構、功能和進化性提供一個比較直觀的平臺
3.探索預測的相互作用網絡,能夠為今后的直言研究提供新方向,并且能夠為相互作用的映射,提供物跨物種預測
4.所有的蛋白質相互作用關系數據都有被加權、整合,并且都會有一個計算得到的可靠值
5.所有計算的預測結果都能通過特定的視圖來查看
6.網頁界面可用來訪問數據,并能夠快速獲取蛋白質及他們之間的相互作用關系的概覽
優勢
1.string數據庫完全是預先計算好的,無論是在高層次的網絡中,還是單個相互作業關系記錄的界面,所有的信息都可以被迅速獲取
2.它還支持單獨選擇各種證據類型,這樣能夠在運行的時候進行定制的搜索,同時也會有專門的查看器來對所有的關聯證據進行查看
3.該數據庫是一項探索性的資源:它比基本的相互作用關系數據庫包含了更大的關聯數據--盡管是有不同的可能值
4.因此,它最好被用于快速、初步地獲取要查詢的蛋白質的功能合作伙伴,尤其是對那種還沒能很好的表征的蛋白質
數據庫介紹
string數據庫通過文獻內容管理,來提取實驗數據得出的蛋白質-蛋白質相互作用關系。此外,string數據庫還存儲得有一些計算預測的相互作用關系: 1.科學文章的文本挖掘 2.從基因組的特征計算得來的相互作用關系 3.基于直系同源的物種模型轉移來的相互作用關系 所有預測的活著導入的功能性關系對,都是以及各通用的參考數據庫為基準來進行注釋 導入的數據 string數據庫的蛋白質關聯信息,有一些是從物理相互作用數據庫,以及生物通路的信息數據庫導入的 準確的數據: KEGG????????? EcoCyc???????? BIioCyc????????? GO???????? reactome????????? Biocarta?????? ?NCI-Nature Pathway Interaction Database 實驗數據: MINT??? HPRD?? BIND ? DIP ?PID ?BioGRID?
預測的數據 string數據庫中,還有一些數據是通過預測得來的 Neighborhood:不同物種之間,相似的基因組信息預示著相似的蛋白質功能 Gene Fusion:某些基因組中的蛋白質的融合,有很大可能性是具有功能性相關的 Co-occurrence:如果蛋白質有相似的功能,或者出現在同一個代謝通路中,那他們應該是會具有相似的表達模式的,以及相似的系統發生譜 Co-expression:基于觀察到的具有相同表達模式的基因,來預測基因之間的相關性 基因組信息
算法介紹
數據庫介紹
string數據庫通過文獻內容管理,來提取實驗數據得出的蛋白質-蛋白質相互作用關系。此外,string數據庫還存儲得有一些計算預測的相互作用關系: 1.科學文章的文本挖掘 2.從基因組的特征計算得來的相互作用關系 3.基于直系同源的物種模型轉移來的相互作用關系 所有預測的活著導入的功能性關系對,都是以及各通用的參考數據庫為基準來進行注釋 導入的數據 string數據庫的蛋白質關聯信息,有一些是從物理相互作用數據庫,以及生物通路的信息數據庫導入的 準確的數據: KEGG????????? EcoCyc???????? BIioCyc????????? GO???????? reactome????????? Biocarta?????? ?NCI-Nature Pathway Interaction Database 實驗數據: MINT??? HPRD?? BIND ? DIP ?PID ?BioGRID?
文本挖掘
string數據庫的有些信息是通過文本挖掘的方式收集的。通過對龐大的科學文章的解析,來搜尋到統計相關的共現基因的名字 SGD:Saccharomyces OMIM:Online Mendelian Inheritance? in Man FlyBase:A Database of Drophila Genes &Genomes PubMed:A search engine accessing primarily the MEDLINE database of references and abstracts on life sciences and biomedical topics預測的數據 string數據庫中,還有一些數據是通過預測得來的 Neighborhood:不同物種之間,相似的基因組信息預示著相似的蛋白質功能 Gene Fusion:某些基因組中的蛋白質的融合,有很大可能性是具有功能性相關的 Co-occurrence:如果蛋白質有相似的功能,或者出現在同一個代謝通路中,那他們應該是會具有相似的表達模式的,以及相似的系統發生譜 Co-expression:基于觀察到的具有相同表達模式的基因,來預測基因之間的相關性 基因組信息
算法介紹
很大一部分的string的數據是從之前介紹的各種數據庫中導入的。同時,他也包含了大量的預測的關聯性
string數據庫會定期導入完整測序的基因組序列(多細胞基因組:Ensembl,其他:SwissProt/UnitProt),并從中搜索這三種基因組信息。目的就是為了識別在進化過程中,也許具有一定功能相關聯的基因對。string數據庫中,使用Confidence Score可靠指數來對應每一個預測的相互關聯性
算法優勢 將多種類型的證據數據映射到單一的、穩定的蛋白質組中,從而更有利于數據的比較 將已知預測的相互作用關系進行了部分互補,從而擴大覆蓋的范圍綜合打分的方案比獨立的證據認可,具有更高的可靠性
并映射和傳輸相互作用關系到大量的生物體中,有利于進化的研究
算法總結
算法
總結
以上是生活随笔為你收集整理的string数据库使用和实践第一部分string数据库介绍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: fluent在运行时改变重力方向方法总结
- 下一篇: 消费机 mysql_消费机软件主要构成