补充一点化学知识
1、一些鍵位的問題:
問題1:1處、COOH等于這種“O + OH”的組合嗎?
可以,"COOH" = "O+OH" ,因為一個C連接4個鍵,每個鍵的末端是一個C,并且每一個連接點沒寫出來的都是一個C
問題2:2處和3處、CH3可以省略不寫嗎
可以,末端的CH3都可以省略不寫,2和3不一樣的地方是2是手性,但也是CH3,只不過是帶有方向的CH3而已
問題3:這兩個分子是一樣的嗎?
基于上面的知識,是完全一樣的
2、motif(子圖)相關
1)motif(子圖)是什么?
維基百科:經常出現的統計學上非常重要的子圖或子結構,也可能是一種模式。
下面我們給出例子,分子圖通過一些分解手段來構造一些子結構,我們列出了4個例子:
2)Why motifs?
?第一個原因就是motif已經在圖領域被廣泛學習,而且已被證明可以對一些圖表示學習起到幫助。第二個原因是motif作為統計學上較重要的子圖,學習motif本身也就如同在學習圖中的一個重要子結構。自然我們也可以學習到一些有用的信息來幫助分子圖的表示學習。
?對比NLP和圖領域,這兩者有非常多的相似之處。我們在圖中以node作為基本的單位,在NLP中把字母作為基本的單位;圖中的edge這種兩個node之間的關系可以看做NLP中兩個相鄰字母之間的關系;圖中的子圖在NLP中也可以用連續的字母作為相對應的關系。圖中的motif在NLP中也可以被看作word,在NLP中word embedding的學習是非常重要的,無論是對于sentence還是document。類比過來,圖中motif的學習對于graph的學習也是非常重要的。
3)Motif Vocabulary
構建motif的字典,我們首先給一個數據集選取一個提取motif的方法,然后遍歷數據集中所有的分子圖提取出一些子圖。
我們也可以進行篩選,選出一些重要的子圖。當然也可以不做篩選,全部放在字典之中。這樣肯定也不會遺漏信息。
?需要強調的是,提取motif方法的選擇也很重要。我們可以用環來代表非常多的motif,本研究中的提取方法就是選取所有的環結構已經那些不在環結構上的邊作為motif放入字典之中。其他一些分子中的成熟的decomposition方法例如RECAP和BRICS提取出來的motif相對較大,很難控制字典的大小,因為當motif過大的時候就不夠基礎,提取出的motif中數量就很難控制。只提取環和邊的另一個好處是其時間復雜度不是很高,只有o(n2)。
干貨!通過異構子圖神經網絡進行分子表示學習_AITIME論道的博客-CSDN博客
Motifs
Learning to Extend Molecular Scaffolds with Structural Motifs
Training our model relies on a set of fragments M – called the motif vocabulary – which we infer directly from data. For each training molecule, we decompose it into fragments by breaking? some of the bonds; we only consider acyclic bonds(bonds that do not lie on a cycle,as breaking rings is chemically challenging).僅切斷沒在環上的鍵
We break all acyclic bonds adjacent to a cycle (i.e. at least one endpoint lies on a cycle), as that separates the molecule into cyclic substructures, such as ring systems, and acyclic substructures, such as functional groups. We then aggregate the resulting fragments over the entire training set, and define M as the n most common motifs, where n is a hyperparameter.【切斷了臨近環的所有鍵,所以這將分子分離成環狀子結構和非環狀子結構,然后,我們將整個訓練集的結果fragments 聚合在一起,將n個最常見的motifs定義為M,其中n是超參數】
Having selected M, we pre-process molecules (both for training and during inference) by noting which atoms are covered by motifs belonging to the vocabulary. This is done by applying the same bond-breaking procedure as used for motif vocabulary extraction. During generation, our model can?either add an entire motif in one step, or generate atoms and bonds one-by-one. This means that it can generate arbitrary structures, such as an unusual ring, even if they do not appear in the training data.
Finally, note that in contrast to Jin et al. (2020), we do not decompose ring systems into individual rings. This means that our motifs are atom-disjoint, and we consequently do not need to model a motif-specific attachment point vocabulary, as attaching a motif to a partial graph requires adding only a single bond, and thus there is only one attachment point. 【我們不會將環系統分解為單個環】
3、GWAS(基因組關聯分析)位點90%以上分布在非編碼區域,非編碼區域和位點是什么意思?
GWAS是基因組關聯分析的縮寫,它用于研究基因與表型之間的關系。GWAS位點是指在基因組上與某種表型相關的特定位置。這些位點通常被認為是可能與表型相關的基因變異的標記。
簡單來說,GWAS就是研究基因與某種表型的關系,其中位點是指基因組上SNP的特定位置。
非編碼區域指的是基因組中不編碼蛋白質的DNA序列區域。這些區域包括基因的調控區域、轉錄因子結合位點、啟動子、增強子、微小RNA和長鏈非編碼RNA等。盡管這些區域不直接編碼蛋白質,但它們仍然對基因表達和調控起著重要作用。
因此,當說90%以上的GWAS位點分布在非編碼區域時,意味著這些位點通常并不直接編碼蛋白質,而是可能通過影響基因表達和調控等方式來影響表型。
4、分子晶體結構預測是什么?
1)晶體是什么?它和小分子有什么關系?
這里的晶體一般指的是由分子或原子組成的晶體。分子晶體是由分子通過各種非共價鍵如氫鍵、范德華力等相互作用形成的固態物質,屬于小分子。
在分子晶體結構預測中,通常是基于分子結構計算出其在晶格中的幾何排列,從而得到晶體結構和特征數據的。所以,分子結構和晶體結構是密切相關的。
2)分子晶體結構排名和
"分子晶體結構排名"是指根據一定的評價標準,對不同可能的分子晶體結構進行排序,以找到最優化的晶體結構。這個過程可以利用計算方法進行模擬和計算實現。
3)晶體特征預測?
"晶體特征預測"是指通過計算機模擬和數據處理等技術手段,對分子晶體的物理化學特征進行推斷和預測。例如,晶格常數、衍射角度、晶胞體積、分子間距離等都可以通過計算和模擬得出。這些晶體特征數據可以為材料設計、藥物研發等領域提供指導和預測。
4)分子晶體結構預測
分子晶體結構預測是指利用計算方法對分子在晶格中的幾何排列進行模擬和預測,以推斷出該分子在晶體中的結構、形態等信息。該技術可以幫助科學家們更好地理解不同分子之間的相互作用機制,并為材料設計、藥物篩選等領域提供基礎數據和指導。
5、蛋白質、靶點、磷酸化位點,它們三者之間的關系?
總之,蛋白質是生命體內最為重要的一類生物大分子,其中一些蛋白質含有磷酸化位點。這些磷酸化位點可能成為生物活性分子(如藥物分子)的可能靶點之一,這也是藥物研發中一個重要的研究方向。
蛋白質可以作為藥物分子的靶點,除了結合磷酸化位點這種方式,還有其他什么方式?
蛋白質是一類可能作為藥物分子的靶點,但并不是所有的藥物分子都是通過與蛋白質上的磷酸化位點相互作用來發揮治療效應的。
在藥物研究和開發中,磷酸化位點是一種生物標記,可能成為某種生物活性分子(如藥物分子)的靶點之一。但是,藥物分子發揮治療效應的方式和途徑非常多樣,包括但不限于與特定蛋白質上的磷酸化位點相互作用。
- 1. 直接結合到蛋白質的活性部位:藥物分子可以通過與蛋白質上的非磷酸化位點相互作用,結合到蛋白質的活性部位,從而發揮治療作用。
- 2. 結合到蛋白質的結構域:除了結合蛋白質的活性部位以外,藥物分子還可以通過與蛋白質上的結構域相互作用,發揮治療作用。
- 3. 結合到蛋白質與其他分子的復合物:某些蛋白質需要與其他分子形成復合物才能發揮其生物學功能,藥物分子可以通過結合到蛋白質與其他分子的復合物的接口部位,來影響蛋白質復合物的形成和功能。
- 4. 影響蛋白質的表達和穩定性:藥物分子也可以通過影響蛋白質的表達、穩定性或降解速率等方式,來調節蛋白質的生物學功能。
總之,藥物分子與蛋白質相互作用的方式多種多樣,具體的作用機制需要根據具體的藥物分子和蛋白質來具體分析。在藥物研究中,選擇適合的靶點以及優化藥物分子的靶向性、親和力和選擇性等是非常重要的研發方向。
雙磷酸化位點和單磷酸化位點的關系是什么?
單磷酸化和雙磷酸化位點是指不同數量的磷酸基團在氨基酸殘基上的修飾情況。單磷酸化位點通常是指某個氨基酸殘基上只有一個磷酸基團的修飾,而雙磷酸化位點則是指同一氨基酸殘基上存在兩個相鄰的磷酸基團。雙磷酸化位點相對于單磷酸化位點來說,在信號傳遞和調控等生物學過程中的作用更加顯著。
雙磷酸化位點與單磷酸化位點的關系并不是一種包含關系。也就是說,單磷酸化位點并不一定是雙磷酸化位點的子集。在蛋白質分子的結構和功能中,不同的磷酸化位點都可能具有獨特的生物學意義和作用。
一個靶點可以有兩個雙磷酸化位點嗎?
一個靶點通常可以存在多個磷酸化位點,其中也可能存在多個雙磷酸化位點。雙磷酸化位點是指靶點上同時存在兩個磷酸化位點的情況,而且這兩個磷酸化位點之間的距離通常比較接近。
在藥物研究中,很多藥物分子的作用機制就是與靶點上的磷酸化位點相互作用,從而影響其生物學功能。
需要指出的是,雖然一個靶點上存在多個磷酸化位點,但這些磷酸化位點之間的配體識別能力和親和力可能存在差異,因此藥物分子可能會選擇特定的磷酸化位點來發揮治療效應。具體選取哪個磷酸化位點作為藥物分子的靶點還需根據具體的藥物分子結構以及靶點本身的特點進行判斷和選擇。
6、抗原和抗體
抗原可以是病毒、細菌等異物以及人體自身死亡的細胞,是能夠刺激機體產生免疫應答的物質。?
而抗體是B淋巴細胞或記憶細胞增殖分化而成的,一般產生于抗原的刺激之下。抗體是一種大分子,屬于免疫球蛋白家族,它們的分子量通常在150 kDa以上,具有高度特異性的結合能力,可以與抗原結合并進行免疫反應。
可以說抗原是人體免疫系統的入侵者。 抗體是機體的防衛者,抗原被機體識別后機體會產生對抗抗原的物質也就是抗體
7、基因
基因和氨基酸是兩種不同的生物分子。
- 基因不是氨基酸,基因是一段用來編碼生物體遺傳信息的DNA序列,它可以通過轉錄和翻譯過程,轉化為具有特定功能的蛋白質。
- 氨基酸則是蛋白質的構成單元,它們通過肽鍵連接成鏈,并折疊成特定的三維結構,從而實現蛋白質的生物學功能。
在轉錄和翻譯過程中,基因序列會被轉錄成RNA分子,并最終翻譯為一串串氨基酸序列,組成具有特定生物學功能的蛋白質。
8、IC50值多少有活性?
1納摩爾(nM)等于0.001微摩爾(μM),也就是1微摩爾等于1000納摩爾。
IC50大于10μM,無拮抗活性,也就是說超過10000nM的分子沒有活性9、化學結構、成像(Cell Painting)和基因表達譜(L1000)是什么?
化學結構是描述和記錄化合物分子內部原子之間連接的方式、位置、數量等信息的方法,通常采用化學式、線條式或分子式進行表示。
成像(Cell Painting)是一種高通量細胞成像技術,通過多通道熒光顯微鏡對細胞進行成像,得到細胞拍照后的熒光圖像。
基因表達譜(L1000)是一種測量細胞內基因轉錄水平的高通量檢測技術,通過microarray或RNA sequencing等方法,獲取幾千個基因的表達水平信息。
這三種東西與小分子有什么關系?
這三個方法與小分子有一定的關系。在化學研究中,可以使用成像技術檢測小分子在細胞內的分布和動態變化;基因表達譜則可以幫助我們了解小分子與細胞之間的相互作用和影響,如小分子通過調節基因表達水平來影響蛋白質合成等生物過程。因此,這三種方法對于小分子的發現、設計、篩選和應用都具有重要意義。
這三種東西可以結合起來預測生物活性:
Nat. Commun. | 從表型特征和化學結構預測化合物活性
10、The lead molecule(引物分子) 和 “先導化合物”的關系?
“Lead molecule”和“先導化合物”是兩個類似但不完全相同的概念。它們都指作為候選藥物分子的初始化合物,但在藥物研究和開發的不同階段使用的術語略有不同。
"先導化合物"(也稱為"先導物")通常是指在發現新藥物前期,通過高通量的篩選方法獲得的具有一定生物活性的分子。這些分子需要經過進一步的優化和驗證,包括代謝、藥效學、藥物動力學等多方面的研究,以確定它們是否具有成為潛在藥物的特征。
"Lead molecule"是藥物研究中稍后的階段使用的術語,也被稱為"引物分子",通常,這個化合物具有一定的生物活性,并且可以根據需要進行化學修飾和優化,以提高其藥理特性和藥效【和先導化合物效果類似,但是他們的研發階段不同】。一旦經過反復的有效性測試和結構優化后,先導化合物可能會被升級為引物分子,作為藥物開發的起點。Lead分子通常具有更高的親和力和選擇性,并且能夠引導進一步的優化工作以獲得最終的藥物分子。
總之,先導化合物和Lead分子都是藥物研究中至關重要的概念,它們幫助藥物研究人員在藥物發現和開發過程中尋找最優化的候選化合物。
11、藍本
在生物學中,“藍本”通常指的是一種基因或遺傳物質的“模板”或“設計圖紙”,它具有指導細胞復制和產生后代的作用。
在基因突變的研究中,可以使用某個藍本作為基礎,然后通過隨機突變來改變其DNA序列,以觀察對某些生物形態、功能等方面的影響。
總結
- 上一篇: flask后台开发之数据库交互
- 下一篇: 数字图像处理(6)——形态学图像处理