Colibri 片段化学空间的兴起
2007 年,Reymond 等人發(fā)布了 GDB-11?數(shù)據(jù)庫,11 個重原子?2640 萬個分子。時隔兩年,再度發(fā)布的 GDB-13 數(shù)據(jù)庫,13 個重原子 9.7 億。2012 年,發(fā)布?GDB-17?數(shù)據(jù)庫,激增到?17?個重原子?1660?億!!
GDB 數(shù)據(jù)庫是人類朝超大規(guī)模數(shù)據(jù)庫進發(fā)的一個縮影。這種通過在邊界約束下枚舉出所有可能的有機分子,無疑人類探索化學空間的突出典范。
下圖是一些知名枚舉數(shù)據(jù)庫的示意圖。
指數(shù)級的增長!!!
——枚舉數(shù)據(jù)庫的問題——
360-CPU cluster,100 000??CPU hours?才枚舉生成了高達 1660 億規(guī)模的?GDB-17?數(shù)據(jù)庫。對于?1660 億如此大的規(guī)模,就算以 zip 形式儲存一維的 SMILES?格式,都需要大約 400 GB。做過虛擬篩選的人,應該很容易理解直接暴力對?1660 億枚舉數(shù)據(jù)庫進行虛擬篩選,意味著什么!
下圖是?NIH?研討會中展示的枚舉類數(shù)據(jù)庫的操作成本和時間,如相似性檢索、子結(jié)構(gòu)檢索、三維構(gòu)象生成、分子對接、結(jié)構(gòu)疊合和儲存等等。
以?AstraZeneca?的實際項目為例,枚舉出百億級數(shù)據(jù)庫,一維的 Smiles 格式 400 CPUs 1.5天。三維構(gòu)象生成,29000 CPUs 55 小時。儲存 20 TB。采用?FastROCS?進行三維相似性檢索,1330 M,50 GPUs 加載 23min,查詢 18 min。
和這種枚舉類數(shù)據(jù)庫相比,通過?infiniSee?檢索百億級片段化學空間,一臺普普通通的辦公電腦就可以完成,檢索時間最快幾秒鐘,生成 10W 個解決方案也大多都在 30 min以內(nèi)。天然之別!!
隨后 2018年,AstraZeneca?對外公布完成內(nèi)部 10 的 15 次方規(guī)模化學空間的構(gòu)建。如今已經(jīng)達到了 10 的 17 方。
可以預料,隨著枚舉數(shù)據(jù)庫的激增,成本的增加沒有盡頭,效率也是極為低下。所以枚舉類數(shù)據(jù)庫通常的解決方式是檢索部分數(shù)據(jù)庫,而非全部,從而大大降低成本!!
除了成本和效率,這種枚舉產(chǎn)生的虛擬數(shù)據(jù)庫的可合成性也是大問題,如果通過篩選拿到了系列化合物,但是無法直接購買、甚至難以合成或者無法合成,那這個化合物就沒有意義。
對于枚舉數(shù)據(jù)庫,常規(guī)做法是首先對化學空間進行均勻采樣,然后對采樣后的數(shù)據(jù)庫進行虛擬篩選等操作,找到合適的化學型后,再針對該化學型周圍的化學空間進行詳細采用,如此進行迭代,如化學空間加速藥物發(fā)現(xiàn) @重復迭代。
很明顯,這種方式受采樣質(zhì)量的影響,會漏掉很多有價值的數(shù)據(jù),并非解決良策。能否高效率、短時間完整的遍歷化學空間?直接進行相似性檢索、虛擬篩選和子結(jié)構(gòu)檢索?
——化學空間的崛起——
預料到枚舉數(shù)據(jù)庫的盡頭,大型制藥公司開始基于分子砌塊和化學反應構(gòu)建片段化學空間。下圖是全球化學空間示意圖,有 BiosolveIT 標志的即為 Colibri 片段化學空間。?
片段化學空間和枚舉數(shù)據(jù)庫最大的區(qū)別就是枚舉類數(shù)據(jù)庫都是以完整的化合物儲存的,而片段化學空間只有分子砌塊和分子砌塊間的連接方式。所以超大規(guī)模枚舉類數(shù)據(jù)庫動則需要 PB 級別的儲存(千億),而片段化學空間一臺最普通辦公電腦就可以。
下方是片段組合的示意圖,在進行片段化學空間的檢索,如相似性檢索、子結(jié)構(gòu)檢索和化學空間篩選時,分子砌塊通過對應的連接方式即時生成完整的化合物。效率遠遠超過枚舉類數(shù)據(jù)庫!!!!
枚舉類數(shù)據(jù)庫和片段化學空間都有各自的優(yōu)點兒。對于化學空間,只要有明確驗證的化學反應和高質(zhì)量高的分子砌塊,就可以構(gòu)建高質(zhì)量可合成的片段化學空間。
對于可合成性,以四大制藥公司的內(nèi)部數(shù)據(jù)和 Merck 高達 10 的 20 次方的 MASSIVE 化學空間為例,合成率都在 80% 以上。Merck 內(nèi)部數(shù)據(jù)表明在 12 個藥物發(fā)現(xiàn)項目中,可合成性均在 80?% 以上,構(gòu)建化學空間后,項目推進快了兩倍,成本降低十倍!!而且內(nèi)部分子砌塊保證高 IP。這!就是構(gòu)建片段化學空間的魅力!
略微可惜隨著國外大型企業(yè)紛紛完成轉(zhuǎn)型,成功完成企業(yè)內(nèi)部化學空間的構(gòu)建。但是中國制藥企業(yè)還未有超大規(guī)模化學空間的報道。
商業(yè)可獲得化學空間有四家?Enamine、WuXi、ChemSpace 和 OTAVA。可喜的是,藥明康德構(gòu)建了目前 80 億的 GalaXi?化學空間,也算開了中國的先河。在 infiniSee 中檢索 GalaXi,主觀效率最高。
——化學空間的解決方案——
由于片段化學空間中并非完整的化合物,所以所有的檢索方式都要重寫。就算是基本的相似性檢索、分子對接、子結(jié)構(gòu)等等算法都需要重寫。不過效果確實迥異。
以下方幾個案例進行觀察:
▎1.? 相似性檢索 -?FTrees +?Tanimote
化學空間最開始引起?Pfizer 和?Boehringer Ingelheim?等大型制藥企業(yè)注意的就是相似性檢索。在 2008 年,Pfizer 第一次系統(tǒng)的證明了 FTrees 在發(fā)現(xiàn)新化學型中的潛力。
相似性檢索分為兩種:
一是發(fā)現(xiàn)結(jié)構(gòu)極為的化合物(Close-by,Tanimoto)。
二是發(fā)現(xiàn)結(jié)構(gòu)有一定的差異性,但是可能具有相似生活活性的化合物(distant,FTrees)。
下圖是 FTrees 示意圖,綠點表明查詢化合物,紅點為結(jié)果,可以發(fā)現(xiàn)化學相似度變化較大時,生物活性并為有太大的降低。而且這點活性的喪失在后期結(jié)構(gòu)修改時,可以很容易的改善。
FTrees 檢索示意圖
通常為發(fā)現(xiàn)全新化學型,會將 FTrees 相似度設(shè)置在 0.9 附近,以期發(fā)現(xiàn)具備同樣相似生物活性,但是結(jié)構(gòu)差異大的化合物。
目前,化學空間的檢索算法較少,藥企廣泛使用的是 FTrees,目前集成在 infiniSee 中,同時內(nèi)置五大化學空間,商業(yè)可獲取的化學空間四個共 500 億,還有一個基于文獻和專利中的化合物和反應構(gòu)建的 10 的 14 次方的化學空間,可以直接檢索。
infiniSee 檢索示意圖(可后臺回復任意文字聯(lián)系小編試用)
但是!!FTrees 雖然有助于骨架躍遷,發(fā)現(xiàn)全新的結(jié)構(gòu),但是該檢索形式是二維,假陽性較大,必須運用三維的方式進行后處理才可以得到合適的結(jié)果。
下圖是一個常見的工作流,通過 infiniSee 進行二維的檢索后,通過 ROCS 等進行三維形狀過濾、約束對接、聚類分析和可視化檢查。
下圖是輝瑞內(nèi)部項目測試,在同樣的數(shù)據(jù)庫規(guī)模下,二維 FTrees 檢索和三維方法的結(jié)合,可以實現(xiàn)最優(yōu)的富集。
鑒于 FTrees?短時間可以實現(xiàn)百億級以上化學空間的完整檢索,可以遠超于正常規(guī)模,理論富集率會更高。
基于相似性檢索的自動化藥物發(fā)現(xiàn)工作流可以參考:藥物發(fā)現(xiàn)三種強大的自動化工作流。
▎2.??化學空間對接/篩選?- Chemical Space Docking
化學空間對接的核心理論就是先對接分子砌塊,分子砌塊基于化學反應進一步生長,最后形成完整的化合物。這也是目前可以實現(xiàn)百億、萬億、兆億或更大規(guī)模虛擬篩選的唯一方式。
以 Genentech 在今年 DrugSpace2022 大會上的報道為例,以? ROCK1 為例進行化學化學對接的概念驗證(Chemical Space Docking)。
化學空間對接不僅可以輕松完成整個化學空間的探索,發(fā)現(xiàn)所有有可能的化學型。而且由于化學空間的特性,篩選出的化合物可以保證可合成性,藥企根據(jù)內(nèi)部的分子砌塊,可高效的完成合成和后續(xù)檢測。
最后的結(jié)構(gòu)也是顯而易見,選擇的 69 個化合物中,有 27 個有效的化合物(閾值設(shè)置為 20 微摩爾),命中率高達 40 %。
這個技術(shù)未來肯定是大規(guī)模普及,其中的震撼,真的是懂得人才懂!!
對于規(guī)模越大的數(shù)據(jù)庫,化學空間的魅力也就越大,下圖是計算資源隨著分子數(shù)據(jù)增加的二維圖,化學空間對接在計算資源的優(yōu)勢顯而易見。
▎3.??片段生長 - FastGrow
化學空間對接是針對化學空間中的所有化合物,有時候如果基于片段進行藥物發(fā)現(xiàn),確定初始片段片段后,可以直接基于初始片段進行后續(xù)生長。
以 AbbVie 的案例為例,360 萬的片段通過 FastGrow 需要多久?
AbbVie 的案例是以 PKC theta 為例,對于 FBDD 項目而言,拿到初始片段后,可以根據(jù)計算模擬篩選現(xiàn)有的片段庫,根據(jù)化學可衍生部位進行片段生長以得到可能有效的藥物。
具體可參考:艾伯維 | FastGrow 在類藥性化合物設(shè)計和合成中的應用。
可以發(fā)現(xiàn)完整遍歷 360 萬的片段庫,給出 1 萬個結(jié)果只需要 2h 20min,給出 10W 個結(jié)果只需要 3h 40min。注意這里是 360W 片段庫的完整遍歷。而常規(guī)對接需要多長時間?!
完成片段生長后,無需對接,直接通過 HYDE 計算親和力,然后進行過濾即可。
FastGrow 誕生前,原本需要幾周完成的工作量,如今幾個小時就可以輕松完成!!這對效率的提升不言而喻。
總結(jié)
以上是生活随笔為你收集整理的Colibri 片段化学空间的兴起的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: MOS管相关知识
- 下一篇: CORS跨域以及Cookie跨域