让机器辨别气味:利用图神经网络预测分子的嗅觉属性
文 / Alexander B Wiltschko 高級(jí)研究員 Google Research
嗅覺是諸多生物體共有的一種感官,在生物體分析世界并作出相應(yīng)反應(yīng)方面起著至關(guān)重要的作用。對(duì)人類而言,我們的嗅覺與享用美食緊密相連,并且還能喚醒與之對(duì)應(yīng)的鮮活記憶。嗅覺使我們可以感受日常生活中的各種香味,例如我們熟悉的玫瑰花香、新鮮出爐的餅干醇香,抑或是最喜歡的香水味道。雖然嗅覺很重要,但在機(jī)器學(xué)習(xí)研究中它并未像視覺與聽覺那般備受關(guān)注。
人類的氣味感知通過激活 400 種不同類型的嗅覺感受器 (Olfactory Receptors, OR) 來實(shí)現(xiàn)。嗅覺感受器位于鼻腔內(nèi)名為嗅覺上皮的小塊狀組織中,由 100 萬個(gè)嗅覺感應(yīng)神經(jīng)元 (Olfactory Sensory Neurons, OSN) 組成。這些 OSN 將信號(hào)發(fā)送給嗅球(olfactory bulb),然后進(jìn)一步傳遞到大腦皮層產(chǎn)生嗅覺。
基于視覺和聲音深度學(xué)習(xí)研究的類似進(jìn)展,我們通過類比得知,即使不知道所有相關(guān)系統(tǒng)的復(fù)雜細(xì)節(jié),嗅覺深度學(xué)習(xí)應(yīng)該也可以直接預(yù)測(cè)出輸入分子的最終感應(yīng)結(jié)果。解決氣味預(yù)測(cè)問題將有助于發(fā)現(xiàn)新的合成氣味劑,從而減少取用天然產(chǎn)品造成的生態(tài)影響。審視生成的嗅覺模型甚至可以帶來嗅覺生物學(xué)的新見解。
小氣味分子是香精香料最基本的組成成分,因此也代表了最簡(jiǎn)單的氣味預(yù)測(cè)問題。不過,每個(gè)分子都有多個(gè)氣味描述詞。例如,對(duì)于香蘭素 (Vanillin)的描述詞有 甜美、香草味、奶油味 和 巧克力味 等,其中的某些氣味會(huì)更為明顯。因此,氣味預(yù)測(cè)也是一個(gè) 多標(biāo)簽分類 問題。
在“氣味機(jī)器學(xué)習(xí):學(xué)習(xí)小分子的可泛化感知表征” (Machine Learning for Scent: Learning Generalizable Perceptual Representations of Small Molecules) 一文中,我們利用圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,? GNNs),在不采用任何人工規(guī)則的情況下,把?圖 (Graph) 輸入到 GNN,直接預(yù)測(cè)單個(gè)分子的氣味描述詞。GNN 是一種深度神經(jīng)網(wǎng)絡(luò),可以對(duì)圖進(jìn)行操作。研究證明,與目前的最新技術(shù)相比,此方法可顯著提高氣味預(yù)測(cè)能力,是非常有前景的未來研究方向。
-
氣味機(jī)器學(xué)習(xí):學(xué)習(xí)小分子的可泛化感知表征
https://arxiv.org/abs/1910.10685
用于氣味預(yù)測(cè)的圖神經(jīng)網(wǎng)絡(luò)
分子與圖相似,原子就像圖中的點(diǎn) (vertices),化學(xué)鍵就像圖中的邊 (edges),因此 GNN 是非常便于理解的自然模型選擇。
-
自然模型選擇
https://ai.googleblog.com/2017/04/predicting-properties-of-molecules-with.html
但如何將分子結(jié)構(gòu)轉(zhuǎn)化為圖表征呢?首先,使用原子特征、原子電荷等任何首選特征將圖的每個(gè)節(jié)點(diǎn)表示為矢量。然后,在一系列消息傳遞步驟中,各節(jié)點(diǎn)將其當(dāng)前的矢量值傳播到各自的相鄰節(jié)點(diǎn)。隨后,更新函數(shù)收集其收到的矢量,生成更新后的矢量值。此過程重復(fù)多次,直至圖中的所有節(jié)點(diǎn)通過求和及求平均值最終聚合為一個(gè)矢量。該矢量代表整個(gè)分子,隨后可將其作為已學(xué)習(xí)的分子特征傳遞到全連接網(wǎng)絡(luò)中。該網(wǎng)絡(luò)會(huì)輸出一個(gè)氣味描述詞預(yù)測(cè)結(jié)果,就像調(diào)香師提供的描述一樣。
每個(gè)節(jié)點(diǎn)都表示為一個(gè)矢量,矢量中的每個(gè)輸入項(xiàng)最初都會(huì)對(duì)某些原子級(jí)信息進(jìn)行編碼
每個(gè)節(jié)點(diǎn)會(huì)查看其相鄰節(jié)點(diǎn),并收集信息,然后使用神經(jīng)網(wǎng)絡(luò)將信息進(jìn)行轉(zhuǎn)換,并更新中心節(jié)點(diǎn)的信息。反復(fù)執(zhí)行以上步驟。GNN 的其他變體會(huì)利用邊和圖的信息
氣味預(yù)測(cè)的 GNN 示意圖。我們將分子結(jié)構(gòu)轉(zhuǎn)化為圖,然后將其輸入到 GNN,以學(xué)習(xí)更好地表示節(jié)點(diǎn)。最終圖中節(jié)點(diǎn)降維成一個(gè)矢量,傳遞到一個(gè)包含多個(gè)氣味描述詞的神經(jīng)網(wǎng)絡(luò)中輸出預(yù)測(cè)結(jié)果
此表征不涉及原子的空間位置,因此無法區(qū)分立體異構(gòu)體,即原子組成相同但結(jié)構(gòu)略有不同的分子。這種分子氣味可能不同,例如 (R)- 香芹酮和 (S)- 香芹酮,前者具有薄荷味而后者具有辛辣味。然而出乎意料的是,我們?cè)趯?shí)踐中發(fā)現(xiàn),即使不區(qū)分立體異構(gòu)體,也可以很好地預(yù)測(cè)氣味。
對(duì)于氣味預(yù)測(cè),GNN 實(shí)驗(yàn)結(jié)果一致表明,與之前最先進(jìn) (SOTA) 的方法(比如隨機(jī)森林法)相比,此方法的效果更好,因?yàn)橹暗姆椒ú荒苤苯訉?duì)圖結(jié)構(gòu)進(jìn)行編碼。性能提升程度取決于嘗試預(yù)測(cè)的氣味類型。
氣味描述預(yù)測(cè)的表現(xiàn)對(duì)比:GNN vs 標(biāo)準(zhǔn)基準(zhǔn) (以 AUROC 分?jǐn)?shù)衡量)。氣味描述詞為隨機(jī)抽取。值越接近 1.0 預(yù)測(cè)結(jié)果越準(zhǔn)確。在大多數(shù)情況下,GNN 的表現(xiàn)大大超出該領(lǐng)域的標(biāo)準(zhǔn)基準(zhǔn),在其他評(píng)價(jià)指標(biāo)下也基本如此(例如 召回率、精度、AUPRC等)
從模型中學(xué)習(xí),并將成果擴(kuò)展到其他任務(wù)
除了預(yù)測(cè)氣味描述詞以外,GNN 還可應(yīng)用于其他嗅覺任務(wù)。例如,僅使用有限的數(shù)據(jù)對(duì)全新的或精煉后的氣味描述詞進(jìn)行分類。我們針對(duì)每個(gè)分子提取表征。確切說,是從專為氣味描述詞優(yōu)化的模型的中間層提取已學(xué)習(xí)的表征,我們稱之為“氣味嵌入(odor embedding)”。您可將其理解為色彩空間的 RGB 或 CMYK。
為了解氣味嵌入是否適用于其他相似的預(yù)測(cè)任務(wù),我們?cè)O(shè)計(jì)了實(shí)驗(yàn),以測(cè)試我們的模型在非預(yù)期情境中的表現(xiàn)。然后,我們將氣味嵌入表征與常見的化學(xué)信息表征進(jìn)行比較,該信息表征可對(duì)分子結(jié)構(gòu)信息進(jìn)行編碼,但并不知道氣味。結(jié)果發(fā)現(xiàn),氣味嵌入普遍適用于具有挑戰(zhàn)性的新任務(wù),甚至在某些方面符合最尖端的技術(shù)要求。
-
常見的化學(xué)信息表征
https://pubs.acs.org/doi/abs/10.1021/ci100050t
突出顯示某些氣味的嵌入空間的二維可視化(高亮顯示了部分氣味)左圖:每種氣味在空間中呈現(xiàn)出聚集的表征。右圖:氣味描述詞呈現(xiàn)出層級(jí)嵌套的表征。陰影和輪廓線通過嵌入的核密度估計(jì)法計(jì)算得出。
未來工作
在機(jī)器學(xué)習(xí)領(lǐng)域中,嗅覺仍然是最難以捉摸的感官。我們很高興通過不斷的基礎(chǔ)研究逐漸揭開了這個(gè)領(lǐng)域的一角。未來的研究大有可為,從設(shè)計(jì)更廉價(jià)更可持續(xù)生產(chǎn)的新氣味分子,到數(shù)字化香味,甚至在某天讓喪失嗅覺的人能夠嗅到玫瑰花香(也可能是臭雞蛋味),不一而足。我們還希望通過創(chuàng)建和共享優(yōu)質(zhì)的開放數(shù)據(jù)集,讓更多的機(jī)器學(xué)習(xí)研究人員關(guān)注這個(gè)方向。
致謝
此早期研究是 Google Brain 團(tuán)隊(duì)以下出色研究員與工程師的辛勤成果和智慧結(jié)晶:Benjamin Sanchez-Lengeling、Jennifer Wei、Brian Lee、Emily Reif、Carey Radebaugh、Max Bileschi、Yoni Halpern 和 D. Sculley。我們很高興能夠與亞利桑那州立大學(xué)的 Richard Gerkin 和多倫多大學(xué)的 Alán Aspuru-Guzik 協(xié)作開展此項(xiàng)研究。當(dāng)然,先前完成的大量工作也為我們的研究奠定了基礎(chǔ),而且 Justin Gilmer、George Dahl 等人的 GNN 基礎(chǔ)方法研究,以及其他神經(jīng)學(xué)、統(tǒng)計(jì)學(xué)和化學(xué)成果也使我們受益匪淺。此外,我們還要感謝 Steven Kearnes、David Belanger、Joel Mainland 和 Emily Mayhew 提供寶貴意見。
更多 AI 相關(guān)閱讀:
-
探索海量多語言大規(guī)模神經(jīng)機(jī)器翻譯
-
多語言識(shí)別的實(shí)現(xiàn)
-
視頻架構(gòu)搜索的研究
總結(jié)
以上是生活随笔為你收集整理的让机器辨别气味:利用图神经网络预测分子的嗅觉属性的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: TPM分析笔记(二)TPM2.0 规范文
- 下一篇: Fastdfs预留空间问题排查分析