當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Colibri 片段化学空间的兴起

發(fā)布時間：2023/12/20 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了 Colibri 片段化学空间的兴起小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

2007 年，Reymond 等人發(fā)布了 GDB-11?數(shù)據(jù)庫，11 個重原子?2640 萬個分子。時隔兩年，再度發(fā)布的 GDB-13 數(shù)據(jù)庫，13 個重原子 9.7 億。2012 年，發(fā)布?GDB-17?數(shù)據(jù)庫，激增到?17?個重原子?1660?億！！

GDB 數(shù)據(jù)庫是人類朝超大規(guī)模數(shù)據(jù)庫進發(fā)的一個縮影。這種通過在邊界約束下枚舉出所有可能的有機分子，無疑人類探索化學空間的突出典范。

下圖是一些知名枚舉數(shù)據(jù)庫的示意圖。

指數(shù)級的增長！！！

——枚舉數(shù)據(jù)庫的問題——

360-CPU cluster，100 000??CPU hours?才枚舉生成了高達 1660 億規(guī)模的?GDB-17?數(shù)據(jù)庫。對于?1660 億如此大的規(guī)模，就算以 zip 形式儲存一維的 SMILES?格式，都需要大約 400 GB。做過虛擬篩選的人，應該很容易理解直接暴力對?1660 億枚舉數(shù)據(jù)庫進行虛擬篩選，意味著什么！

下圖是?NIH?研討會中展示的枚舉類數(shù)據(jù)庫的操作成本和時間，如相似性檢索、子結(jié)構(gòu)檢索、三維構(gòu)象生成、分子對接、結(jié)構(gòu)疊合和儲存等等。

以?AstraZeneca?的實際項目為例，枚舉出百億級數(shù)據(jù)庫，一維的 Smiles 格式 400 CPUs 1.5天。三維構(gòu)象生成，29000 CPUs 55 小時。儲存 20 TB。采用?FastROCS?進行三維相似性檢索，1330 M，50 GPUs 加載 23min，查詢 18 min。

和這種枚舉類數(shù)據(jù)庫相比，通過?infiniSee?檢索百億級片段化學空間，一臺普普通通的辦公電腦就可以完成，檢索時間最快幾秒鐘，生成 10W 個解決方案也大多都在 30 min以內(nèi)。天然之別！！

隨后 2018年，AstraZeneca?對外公布完成內(nèi)部 10 的 15 次方規(guī)模化學空間的構(gòu)建。如今已經(jīng)達到了 10 的 17 方。

可以預料，隨著枚舉數(shù)據(jù)庫的激增，成本的增加沒有盡頭，效率也是極為低下。所以枚舉類數(shù)據(jù)庫通常的解決方式是檢索部分數(shù)據(jù)庫，而非全部，從而大大降低成本！！

除了成本和效率，這種枚舉產(chǎn)生的虛擬數(shù)據(jù)庫的可合成性也是大問題，如果通過篩選拿到了系列化合物，但是無法直接購買、甚至難以合成或者無法合成，那這個化合物就沒有意義。

對于枚舉數(shù)據(jù)庫，常規(guī)做法是首先對化學空間進行均勻采樣，然后對采樣后的數(shù)據(jù)庫進行虛擬篩選等操作，找到合適的化學型后，再針對該化學型周圍的化學空間進行詳細采用，如此進行迭代，如化學空間加速藥物發(fā)現(xiàn) @重復迭代。

很明顯，這種方式受采樣質(zhì)量的影響，會漏掉很多有價值的數(shù)據(jù)，并非解決良策。能否高效率、短時間完整的遍歷化學空間？直接進行相似性檢索、虛擬篩選和子結(jié)構(gòu)檢索？

——化學空間的崛起——

預料到枚舉數(shù)據(jù)庫的盡頭，大型制藥公司開始基于分子砌塊和化學反應構(gòu)建片段化學空間。下圖是全球化學空間示意圖，有 BiosolveIT 標志的即為 Colibri 片段化學空間。?

片段化學空間和枚舉數(shù)據(jù)庫最大的區(qū)別就是枚舉類數(shù)據(jù)庫都是以完整的化合物儲存的，而片段化學空間只有分子砌塊和分子砌塊間的連接方式。所以超大規(guī)模枚舉類數(shù)據(jù)庫動則需要 PB 級別的儲存（千億），而片段化學空間一臺最普通辦公電腦就可以。

下方是片段組合的示意圖，在進行片段化學空間的檢索，如相似性檢索、子結(jié)構(gòu)檢索和化學空間篩選時，分子砌塊通過對應的連接方式即時生成完整的化合物。效率遠遠超過枚舉類數(shù)據(jù)庫！！！！

枚舉類數(shù)據(jù)庫和片段化學空間都有各自的優(yōu)點兒。對于化學空間，只要有明確驗證的化學反應和高質(zhì)量高的分子砌塊，就可以構(gòu)建高質(zhì)量可合成的片段化學空間。

對于可合成性，以四大制藥公司的內(nèi)部數(shù)據(jù)和 Merck 高達 10 的 20 次方的 MASSIVE 化學空間為例，合成率都在 80% 以上。Merck 內(nèi)部數(shù)據(jù)表明在 12 個藥物發(fā)現(xiàn)項目中，可合成性均在 80?% 以上，構(gòu)建化學空間后，項目推進快了兩倍，成本降低十倍！！而且內(nèi)部分子砌塊保證高 IP。這！就是構(gòu)建片段化學空間的魅力！

略微可惜隨著國外大型企業(yè)紛紛完成轉(zhuǎn)型，成功完成企業(yè)內(nèi)部化學空間的構(gòu)建。但是中國制藥企業(yè)還未有超大規(guī)模化學空間的報道。

商業(yè)可獲得化學空間有四家?Enamine、WuXi、ChemSpace 和 OTAVA。可喜的是，藥明康德構(gòu)建了目前 80 億的 GalaXi?化學空間，也算開了中國的先河。在 infiniSee 中檢索 GalaXi，主觀效率最高。

——化學空間的解決方案——

由于片段化學空間中并非完整的化合物，所以所有的檢索方式都要重寫。就算是基本的相似性檢索、分子對接、子結(jié)構(gòu)等等算法都需要重寫。不過效果確實迥異。

以下方幾個案例進行觀察：

▎1.? 相似性檢索 -?FTrees +?Tanimote

化學空間最開始引起?Pfizer 和?Boehringer Ingelheim?等大型制藥企業(yè)注意的就是相似性檢索。在 2008 年，Pfizer 第一次系統(tǒng)的證明了 FTrees 在發(fā)現(xiàn)新化學型中的潛力。

相似性檢索分為兩種：

一是發(fā)現(xiàn)結(jié)構(gòu)極為的化合物（Close-by，Tanimoto）。

二是發(fā)現(xiàn)結(jié)構(gòu)有一定的差異性，但是可能具有相似生活活性的化合物（distant，FTrees）。

下圖是 FTrees 示意圖，綠點表明查詢化合物，紅點為結(jié)果，可以發(fā)現(xiàn)化學相似度變化較大時，生物活性并為有太大的降低。而且這點活性的喪失在后期結(jié)構(gòu)修改時，可以很容易的改善。

FTrees 檢索示意圖

通常為發(fā)現(xiàn)全新化學型，會將 FTrees 相似度設(shè)置在 0.9 附近，以期發(fā)現(xiàn)具備同樣相似生物活性，但是結(jié)構(gòu)差異大的化合物。

目前，化學空間的檢索算法較少，藥企廣泛使用的是 FTrees，目前集成在 infiniSee 中，同時內(nèi)置五大化學空間，商業(yè)可獲取的化學空間四個共 500 億，還有一個基于文獻和專利中的化合物和反應構(gòu)建的 10 的 14 次方的化學空間，可以直接檢索。

infiniSee 檢索示意圖（可后臺回復任意文字聯(lián)系小編試用）

但是！！FTrees 雖然有助于骨架躍遷，發(fā)現(xiàn)全新的結(jié)構(gòu)，但是該檢索形式是二維，假陽性較大，必須運用三維的方式進行后處理才可以得到合適的結(jié)果。

下圖是一個常見的工作流，通過 infiniSee 進行二維的檢索后，通過 ROCS 等進行三維形狀過濾、約束對接、聚類分析和可視化檢查。

下圖是輝瑞內(nèi)部項目測試，在同樣的數(shù)據(jù)庫規(guī)模下，二維 FTrees 檢索和三維方法的結(jié)合，可以實現(xiàn)最優(yōu)的富集。

鑒于 FTrees?短時間可以實現(xiàn)百億級以上化學空間的完整檢索，可以遠超于正常規(guī)模，理論富集率會更高。

基于相似性檢索的自動化藥物發(fā)現(xiàn)工作流可以參考：藥物發(fā)現(xiàn)三種強大的自動化工作流。

▎2.??化學空間對接/篩選?- Chemical Space Docking

化學空間對接的核心理論就是先對接分子砌塊，分子砌塊基于化學反應進一步生長，最后形成完整的化合物。這也是目前可以實現(xiàn)百億、萬億、兆億或更大規(guī)模虛擬篩選的唯一方式。

以 Genentech 在今年 DrugSpace2022 大會上的報道為例，以? ROCK1 為例進行化學化學對接的概念驗證（Chemical Space Docking）。

化學空間對接不僅可以輕松完成整個化學空間的探索，發(fā)現(xiàn)所有有可能的化學型。而且由于化學空間的特性，篩選出的化合物可以保證可合成性，藥企根據(jù)內(nèi)部的分子砌塊，可高效的完成合成和后續(xù)檢測。

最后的結(jié)構(gòu)也是顯而易見，選擇的 69 個化合物中，有 27 個有效的化合物（閾值設(shè)置為 20 微摩爾），命中率高達 40 %。

這個技術(shù)未來肯定是大規(guī)模普及，其中的震撼，真的是懂得人才懂！！

對于規(guī)模越大的數(shù)據(jù)庫，化學空間的魅力也就越大，下圖是計算資源隨著分子數(shù)據(jù)增加的二維圖，化學空間對接在計算資源的優(yōu)勢顯而易見。

▎3.??片段生長 - FastGrow

化學空間對接是針對化學空間中的所有化合物，有時候如果基于片段進行藥物發(fā)現(xiàn)，確定初始片段片段后，可以直接基于初始片段進行后續(xù)生長。

以 AbbVie 的案例為例，360 萬的片段通過 FastGrow 需要多久？

AbbVie 的案例是以 PKC theta 為例，對于 FBDD 項目而言，拿到初始片段后，可以根據(jù)計算模擬篩選現(xiàn)有的片段庫，根據(jù)化學可衍生部位進行片段生長以得到可能有效的藥物。

具體可參考：艾伯維 | FastGrow 在類藥性化合物設(shè)計和合成中的應用。

可以發(fā)現(xiàn)完整遍歷 360 萬的片段庫，給出 1 萬個結(jié)果只需要 2h 20min，給出 10W 個結(jié)果只需要 3h 40min。注意這里是 360W 片段庫的完整遍歷。而常規(guī)對接需要多長時間？！

完成片段生長后，無需對接，直接通過 HYDE 計算親和力，然后進行過濾即可。

FastGrow 誕生前，原本需要幾周完成的工作量，如今幾個小時就可以輕松完成！！這對效率的提升不言而喻。

總結(jié)

以上是生活随笔為你收集整理的Colibri 片段化学空间的兴起的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： MOS管相关知识
下一篇： CORS跨域以及Cookie跨域

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

Colibri 片段化学空间的兴起

總結(jié)