日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

用数学诠释生命——当今生物信息与计算生物学回顾(一)

發布時間:2025/3/15 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 用数学诠释生命——当今生物信息与计算生物学回顾(一) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

李小凡

Xiaofan Li

Cambridge Computational Biology Institute (CCBI)

Department of Applied Mathematics and Theoretical Physics (DAMTP), University of Cambridge, CB3 0WA, United Kingdom

本文接受任何形式的轉載和轉發,但請保留文章標題和內容的完整性以及作者署名信息

?

從數學第一次嘗試介入解決分子生物學問題開始算起,至今已經有大概四分之一個世紀了。所以,所謂 生物信息學和其近親計算生物學,并不是如人們想象的那樣新興。在上世紀 70 年代,已經開始出現針對核苷酸序列比對算法的研究,其基礎就直接來自于計算機算法研究的發展-動態規劃 (Dynamic programming),即在兩個長度為 N M 的序列正交形成的 N x M 的矩陣中,對每一個元素 (i,j) 根據某種機制打分,并在打好分的 N x M 中尋找一條自左上至右下得分之和為最小的路徑,即最短路徑,又即最佳比對方案。值得一提的是,動態規劃并不只適用于序列對比,用遞歸算法實現動態規劃的思想,最初就是用來解決諸如 Travelling Salesman, 背包問題及其派生出的優化問題的。

?

80 年代開始,序列信息開始成倍的增長,因為測序技術在這個時間得到了相當大的發展。另一方面,計算機的計算和存儲能力在這 10 年內迅速提高,給各種數學理論在分子生物學中的應用奠定了硬件基礎。畢竟,生物的復雜度要遠遠超過自然,用筆來計算生物學中的規律,是絕無可能的(這也是 19 世紀末 20 世紀初理論物理和如今理論生物學的顯著區別之一)。生物系統是非線性的,隨機的,這就決定了數學在生物學中的介入,以數值問題和隨機過程為主;而在其他學科,如微觀經濟和理論物理中的數學,往往是分析問題。對于依賴數值解,時間復雜度又相當高的問題,使用計算機是唯一的解決方案。真正意義上的生物信息學和計算生物學,就基本上在此時誕生了。另一方面,分子生物學上取得的進展,尤其是用于測定蛋白質 3D 結構的 X 射線晶體分析 (X-ray crystallography) 和核磁共振 (Nuclear Magnetic Resonance, NMR) 技術的進步,使得生物學者對蛋白質結構和其序列之間的關系有了更加清晰的印象。而蛋白質結構域又往往與其生理功能相適應,這就給分子生物學中的幾大類研究建立了聯系,即功能研究依賴于結構研究,結構研究又依賴于針對蛋白質序列的分析。再加上 Watson-Crick 中心法則,使蛋白質序列與基因序列相關,就形成了研究生物學主流問題的一整套體系。雖然依據這種思路的實驗方法在 80 年代就已經相對完善,但直到以隨機過程和概率論為先鋒的數學開始介入其中之后,這個體系的內在聯系與規律才開始被真正揭示出來。所謂生物信息學計算生物學,實際上應當歸納為理論生物學。不過,理論生物學一詞目前還較少提及,因為直至今日,在生物學研究里,仍然缺少嚴密、規范、完整的理論體系。但是,從彼時起,我們至少已經開始在正確的道路上前行。

?

時至 90 年代,個人計算機性能的再一次爆棚,使得處理生物學中復雜序列問題的金錢和時間成本又一次大大降低,許多原先由于過于復雜而不可實現的算法,在快速 CPU 和大容量內存的支持下得以輕松運行。最顯著的例子就是 BLAST 算法與序列數據庫在過去 15 年中的協同進化BLAST (Myers & Miller, 1990) 是動態規劃解決序列問題最著名的一個實現版本,派生出無數應用,如位于 NCBI 基于 GenBank/UniProt 的各種 BLAST 搜索引擎,又如各種獨立的 BLAST 小程序等。在生物信息學剛開始為普通大眾所知的年代里,BLAST NCBI 幾乎成了該學科的代名詞,以至于很多人(包括相當多的生物學家)認為,生物信息學就是測序,BLAST, 測序,BLAST, 測序,BLAST! 誠然,90 年代對這個領域來說,是數據爆增的時代,因此針對數據存儲和直接搜索的應用顯得尤為重要,如各種各樣的數據搜索工具和序列比對程序。另一個所謂生物信息學程序包,EMBOSS,在這個時代也逐漸被豐富和完善。EMBOSS 由很多小程序組成,每個程序能根據給定的一個序列計算這個序列的某一個屬性,如計算 GC 含量,尋找 CpG 島,預測內含子剪接位點,等等。這些應用也確實屬于生物信息學范疇,但是在如今的觀點看來,只能說是相當基礎的應用了。實際上,這些小程序只是手工處理序列信息的自動化版本,他們除了作為計算器給分子生物學家提供了更快獲得序列某種屬性的途徑之外,并沒有產生更多的價值,也沒能將生物信息學從工具轉化為獨立的研究方向。

?

生物信息學真正作為一門獨立而有重要作用的學科,始于其計算生物學分支在 90 年代的發展。不同于廣為人知的 DNA 和基因,這個分支是從研究蛋白質 3D 結構開始發展的,即從結構生物學入手。在相當長的一段時間內,甚至直到今天,許多生物學者理解的結構生物學,就是指用 X 射線晶體分析和核磁共振 (NMR) 測定蛋白質結構,這也是多數結構生物學實驗室如今仍然在做的事情。用于儲存這些測定好的結構的數據庫,PDB (http://www.pdb.org), 至今已有數萬條記錄。對于某些熱點蛋白質,PDB 里往往會有不同實驗室在不同時間用不同方法測定結構而提交的不同記錄,比較這些記錄的共同點與差異,往往會有對于這個結構本身相當重要的發現。另一方面,雖然蛋白質結構測定技術與 70 年代已不可同日而語,但結構的測定速度永遠趕不上測序的速度,也就造成了 PDB 的記錄在 GenBank UniProt 中的對應序列記錄占序列總數的百分比反而越來越少。這就使得人們開始考慮,是否能通過已知的結構和序列,通過歸納某種方法,能夠根據測序結果推知未知蛋白的結構?我們可以假設這個方法為 f, 已知序列為 x_0, 對應的已知結構為 y_0. 我們希望能從 y_0 = f(x_0) 中歸納出 f, 從而求出對任意 x f(x),即對應任意既有序列的結構。從數學的角度看,這是一個非線性分類問題;用計算機科學的語言來說,這是一個模式識別問題;用人工智能和機器學習領域的觀點,這是一個分類器的學習問題。客觀的說,直到今天,人們仍然沒有找到這樣一個精確的 f, 也沒能發明某種方法完全實現 f 的功能,但迄今為止所有在數學、計算機及機器學習領域里的成果,都已經在蛋白質結構預測中有所嘗試,包括簡單的非線性函數主成分分析 (Principal component analysis, PCA)模擬退火算法 (Simulated annealing)遺傳/進化算法 (Genetic/evolutionary algorithm)神經網絡 (Artificial neural networks, ANNs)隨機概率論模型如隱 Markov 模型 (Hidden Markov models, HMMs)Bayesian 推斷網絡 (Bayesian inference networks) 等。其他非學習手段,包括來自分子力學和動力學的蛋白質折疊模擬,以及對于構象的立體幾何排列研究等,也被用來參與預測蛋白質結構的研究。在如今的研究中,這些方法都是混合使用的,雖然如上所言,人們并沒有得出一個一攬子解決方案,但是在不斷嘗試各種方法的過程中,對蛋白質從線性多肽到完整功能構象的折疊過程,已經有了越來越深的認識。值得指出的是,來自于序列領域的知識,如序列中的特征片段 (Motif) 識別二級結構元件預測,以及更大的結構域同源性的發現,是進行結構研究的重要組成部分,也正是藉于此,傳統生物信息學和傳統計算生物學在 90 年代找到了結合點,形成了不可割裂的一門學科,開始向理論生物學發展。

?

2000 年,生物信息界最廣為人知的進展即為人類基因組測序完成,23 條染色體共 3Gb 堿基對的序列。這是一項規模宏大的基礎工程,給今后的所有領域的生物研究產生了深遠影響,但卻被當時的非專業決策者和普通大眾過高得估計了其市場價值。因此,當所謂的生物科技泡沫互聯網泡沫都隨著 NASDAQ 重挫而消失殆盡時,人們才開始重新嚴肅、謹慎的審視基因組,序列和生物信息學。人類基因組計劃在生物研究上的重要貢獻,除了 3Gb 的數據本身之外,更重要的是建立了一種以序列為基礎的研究方向和方法。從此之后,幾乎每一個生物學者都開始習慣在基因庫中尋找序列上的同源信息以獲得有關自己研究對象的更多信息,或者干脆直接從序列開始,做蛋白結構和功能分析。隨著人們測完了這個生物界相對較大的基因組,測序技術本身也得到了非常快的發展,錢海戰術和人海戰術并用,在接下來的幾年內使 GenBank 的數據水漲船高,至 05 8 月達到了 100Gb,實在不能不說是一次卓有成效的大躍進。核苷酸序列數據達到這個水平,也就從側面表明了,一個基因在基因庫中的豐度,已經能在數據庫中初步的表達出來。搜索一些熱點基因,可以在庫中得到上百個同源結果,這為比較研究——也就是最簡單的找規律破譯密碼邏輯——提供了足夠多相似而不相同的研究樣本。

?

當然,測序得出的基于 EST 片段的基因組序列,其直接生物學價值是很小的,更重要的工作是基因注釋 (Gene annotation)其內容就是將基因在大量的非基因序列中標記出來,并且正確分辨讀碼框 (Reading frame),內含子 (intron) 與外顯子 (exon)這又是一個復雜費時的工作,所幸仍然有政府背景的錢海支持,人類基因組的注釋已經基本完畢,完全手工精確注釋 (VEGA 項目, EBI, UK & NCBI, US) 也已經在一些重要染色體(如 Chr 6, 重要的免疫球蛋白家族 HLA, IG, 原癌基因 p53 等都在此)上完成。而對于其他還未分到一杯羹的已測序物種基因組,人們用一些效果相當不錯的軟件包去做基因發現,以及剪接位點預測等自動化工作 (HMMER @ Ensembl, EBI, UK),也取得了十分有效的成果。值得一提的是,這些軟件包都是生物信息領域的重要成就;人們對算法性能提高的渴望,以及對學習算法精確率的狂熱,永遠沒有止盡。遍覽最近五年的生物信息期刊 (Bioinformatics, Oxford Journals; BMC Bioinformatics, BioMedCentral),關于比對性能,學習模型,性能評測方法,訓練集測試集選擇等等話題的討論實在是數不勝數,使得這兩本雜志有時候看起來更像某種數學期刊;不過,嚴肅的說,這也從側面體現了,數學理論已經真正融入生物學研究中,并逐漸催化生物學從實驗科學變成正規,系統的自然科學。在自然科學里,化學和物理學已經早先一個世紀完成了這種轉變,在數學上得到統一;而生物學中的數學,除了種群生態學中的一些簡單的模型,遺傳學中用于計算基因頻率的簡單概率論,以及用于統計試驗結果的檢驗工具 (誤差,t-檢驗等等)之外,一直是個空白,或者說沒有深入到生物的本質。而現在,基于對序列隨機模型的研究,我們可以一步一步接近以隨機過程為本源的生物學的數學核心。畢竟,有了數學,一門科學才有了靈魂,才可以稱之為真正的科學。

???????????

總結

以上是生活随笔為你收集整理的用数学诠释生命——当今生物信息与计算生物学回顾(一)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。