2021年中国研究生数学建模竞赛D题——抗乳腺癌候选药物的优化建模
一、背景介紹
乳腺癌是目前世界上最常見,致死率較高的癌癥之一。乳腺癌的發(fā)展與雌激素受體密切相關(guān),有研究發(fā)現(xiàn),雌激素受體α亞型(Estrogen receptors alpha, ERα)在不超過10%的正常乳腺上皮細(xì)胞中表達(dá),但大約在50%-80%的乳腺腫瘤細(xì)胞中表達(dá);而對ERα基因缺失小鼠的實(shí)驗(yàn)結(jié)果表明,ERα確實(shí)在乳腺發(fā)育過程中扮演了十分重要的角色。目前,抗激素治療常用于ERα表達(dá)的乳腺癌患者,其通過調(diào)節(jié)雌激素受體活性來控制體內(nèi)雌激素水平。因此,ERα被認(rèn)為是治療乳腺癌的重要靶標(biāo),能夠拮抗ERα活性的化合物可能是治療乳腺癌的候選藥物。比如,臨床治療乳腺癌的經(jīng)典藥物他莫昔芬和雷諾昔芬就是ERα拮抗劑。
目前,在藥物研發(fā)中,為了節(jié)約時間和成本,通常采用建立化合物活性預(yù)測模型的方法來篩選潛在活性化合物。具體做法是:針對與疾病相關(guān)的某個靶標(biāo)(此處為ERα),收集一系列作用于該靶標(biāo)的化合物及其生物活性數(shù)據(jù),然后以一系列分子結(jié)構(gòu)描述符作為自變量,化合物的生物活性值作為因變量,構(gòu)建化合物的定量結(jié)構(gòu)-活性關(guān)系(Quantitative Structure-Activity Relationship, QSAR)模型,然后使用該模型預(yù)測具有更好生物活性的新化合物分子,或者指導(dǎo)已有活性化合物的結(jié)構(gòu)優(yōu)化。
一個化合物想要成為候選藥物,除了需要具備良好的生物活性(此處指抗乳腺癌活性)外,還需要在人體內(nèi)具備良好的藥代動力學(xué)性質(zhì)和安全性,合稱為ADMET(Absorption吸收、Distribution分布、Metabolism代謝、Excretion排泄、Toxicity毒性)性質(zhì)。其中,ADME主要指化合物的藥代動力學(xué)性質(zhì),描述了化合物在生物體內(nèi)的濃度隨時間變化的規(guī)律,T主要指化合物可能在人體內(nèi)產(chǎn)生的毒副作用。一個化合物的活性再好,如果其ADMET性質(zhì)不佳,比如很難被人體吸收,或者體內(nèi)代謝速度太快,或者具有某種毒性,那么其仍然難以成為藥物,因而還需要進(jìn)行ADMET性質(zhì)優(yōu)化。為了方便建模,本試題僅考慮化合物的5種ADMET性質(zhì),分別是:1)小腸上皮細(xì)胞滲透性(Caco-2),可度量化合物被人體吸收的能力;2)細(xì)胞色素P450酶(Cytochrome P450, CYP)3A4亞型(CYP3A4),這是人體內(nèi)的主要代謝酶,可度量化合物的代謝穩(wěn)定性;3)化合物心臟安全性評價(human Ether-a-go-go Related Gene, hERG),可度量化合物的心臟毒性;4)人體口服生物利用度(Human Oral Bioavailability, HOB),可度量藥物進(jìn)入人體后被吸收進(jìn)入人體血液循環(huán)的藥量比例;5)微核試驗(yàn)(Micronucleus,MN),是檢測化合物是否具有遺傳毒性的一種方法。
二、數(shù)據(jù)集介紹及建模目標(biāo)
本試題針對乳腺癌治療靶標(biāo)ERα,首先提供了1974個化合物對ERα的生物活性數(shù)據(jù)。這些數(shù)據(jù)包含在文件“ERα_activity.xlsx”的training表(訓(xùn)練集)中。training表包含3列,第一列提供了1974個化合物的結(jié)構(gòu)式,用一維線性表達(dá)式SMILES(Simplified Molecular Input Line Entry System簡化分子輸入線輸入系統(tǒng))表示;第二列是化合物對ERα的生物活性值(用IC50表示,為實(shí)驗(yàn)測定值,單位是nM,值越小代表生物活性越大,對抑制ERα活性越有效);第三列是將第二列IC50值轉(zhuǎn)化而得的pIC50(即IC50值的負(fù)對數(shù),該值通常與生物活性具有正相關(guān)性,即pIC50值越大表明生物活性越高;實(shí)際QSAR建模中,一般采用pIC50來表示生物活性值)。該文件另有一個test表(測試集),里面提供有50個化合物的SMILES式。
其次,在文件“Molecular_Descriptor.xlsx”的training表(訓(xùn)練集)中,給出了上述1974個化合物的729個分子描述符信息(即自變量)。其中第一列也是化合物的SMILES式(編號順序與上表一樣),其后共有729列,每列代表化合物的一個分子描述符(即一個自變量)。化合物的分子描述符是一系列用于描述化合物的結(jié)構(gòu)和性質(zhì)特征的參數(shù),包括物理化學(xué)性質(zhì)(如分子量,LogP等),拓?fù)浣Y(jié)構(gòu)特征(如氫鍵供體數(shù)量,氫鍵受體數(shù)量等),等等。關(guān)于每個分子描述符的具體含義,請參見文件“分子描述符含義解釋.xlsx”。同樣地,該文件也有一個test表,里面給出了上述50個測試集化合物的729個分子描述符。
最后,在關(guān)注化合物生物活性的同時,還需要考慮其ADMET性質(zhì)。因此,在文件“ADMET.xlsx”的training表(訓(xùn)練集)中,提供了上述1974個化合物的5種ADMET性質(zhì)的數(shù)據(jù)。其中第一列也是表示化合物結(jié)構(gòu)的SMILES式(編號順序與前面一樣),其后5列分別對應(yīng)每個化合物的ADMET性質(zhì),采用二分類法提供相應(yīng)的取值。Caco-2:‘1’代表該化合物的小腸上皮細(xì)胞滲透性較好,‘0’代表該化合物的小腸上皮細(xì)胞滲透性較差;CYP3A4:‘1’代表該化合物能夠被CYP3A4代謝,‘0’代表該化合物不能被CYP3A4代謝;hERG:‘1’代表該化合物具有心臟毒性,‘0’代表該化合物不具有心臟毒性;HOB:‘1’代表該化合物的口服生物利用度較好,‘0’代表該化合物的口服生物利用度較差;MN:‘1’代表該化合物具有遺傳毒性,‘0’代表該化合物不具有遺傳毒性。同樣地,該文件也有一個test表,里面提供有上述50個化合物的SMILES式(編號順序同上)。
**建模目標(biāo):**根據(jù)提供的ERα拮抗劑信息(1974個化合物樣本,每個樣本都有729個分子描述符變量,1個生物活性數(shù)據(jù),5個ADMET性質(zhì)數(shù)據(jù)),構(gòu)建化合物生物活性的定量預(yù)測模型和ADMET性質(zhì)的分類預(yù)測模型,從而為同時優(yōu)化ERα拮抗劑的生物活性和ADMET性質(zhì)提供預(yù)測服務(wù)。
三、需解決問題
問題1. 根據(jù)文件“Molecular_Descriptor.xlsx”和“ERα_activity.xlsx”提供的數(shù)據(jù),針對1974個化合物的729個分子描述符進(jìn)行變量選擇,根據(jù)變量對生物活性影響的重要性進(jìn)行排序,并給出前20個對生物活性最具有顯著影響的分子描述符(即變量),并請詳細(xì)說明分子描述符篩選過程及其合理性。
問題2. 請結(jié)合問題1,選擇不超過20個分子描述符變量,構(gòu)建化合物對ERα生物活性的定量預(yù)測模型,請敘述建模過程。然后使用構(gòu)建的預(yù)測模型,對文件“ERα_activity.xlsx”的test表中的50個化合物進(jìn)行IC50值和對應(yīng)的pIC50值預(yù)測,并將結(jié)果分別填入“ERα_activity.xlsx”的test表中的IC50_nM列及對應(yīng)的pIC50列。
問題3. 請利用文件“Molecular_Descriptor.xlsx”提供的729個分子描述符,針對文件“ADMET.xlsx”中提供的1974個化合物的ADMET數(shù)據(jù),分別構(gòu)建化合物的Caco-2、CYP3A4、hERG、HOB、MN的分類預(yù)測模型,并簡要敘述建模過程。然后使用所構(gòu)建的5個分類預(yù)測模型,對文件“ADMET.xlsx”的test表中的50個化合物進(jìn)行相應(yīng)的預(yù)測,并將結(jié)果填入“ADMET.xlsx”的test表中對應(yīng)的Caco-2、CYP3A4、hERG、HOB、MN列。
問題4. 尋找并闡述化合物的哪些分子描述符,以及這些分子描述符在什么取值或者處于什么取值范圍時,能夠使化合物對抑制ERα具有更好的生物活性,同時具有更好的ADMET性質(zhì)(給定的五個ADMET性質(zhì)中,至少三個性質(zhì)較好)。
附件:
附件一:ERα_activity.xlsx
附件二:Molecular_Descriptor.xlsx
附件三:分子描述符含義解釋.xlsx
附件四:ADMET.xlsx
總結(jié)
以上是生活随笔為你收集整理的2021年中国研究生数学建模竞赛D题——抗乳腺癌候选药物的优化建模的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql中视图的概念_MySql中的视
- 下一篇: 奇怪的剪贴板