語音播報
近日,中國科學院上海藥物研究所鄭明月團隊報道了名為ReactSeq反應描述語言。該語言可以編碼化學反應中的分子編輯操作,使自然語言處理模型在逆合成預測、反應表征和檢索方面表現(xiàn)得更為出色。
以大語言模型為代表的人工智能技術在自然語言處理方面取得了進展,影響了科學研究范式。在生命科學領域,語言模型現(xiàn)已被用于在蛋白質和基因序列中挖掘隱藏信息,并取得了成果。在化學與藥物研發(fā)領域,處理化學分子與反應的化學語言模型(CLMs)也逐漸興起。與自然語言、蛋白質和基因不同,化學分子缺乏固有的順序表示。CLM利用化學家定義的分子線性注釋來學習和生成分子結構。常用的分子線性注釋是簡化分子輸入線輸入系統(tǒng)(SMILES)。
近年來,為提升CLMs在特定任務中的表現(xiàn),有研究設計了一些新的分子線性注釋。然而,這些語言都是為了描述化學分子的靜態(tài)結構,無法明確描述化學反應過程中分子中原子和鍵的變化過程。這限制了語言模型在化學反應預測和表示中的應用。目前用于化學反應預測的語言模型包括正向和反向合成預測,通常直接將產物和反應物的線性表示相互轉換,但在可解釋性與交互性方面存在不足。此外,盡管預訓練語言模型在多種序列數(shù)據(jù)的表示學習方面表現(xiàn)出色,但其在化學反應表示方面的進展相對有限。
受逆合成分析過程的啟發(fā),ReactSeq定義了從產物結構出發(fā)并將其轉化為反應物分子所需的一系列分子編輯操作(MEO)。這些MEO包括化學鍵的斷裂和變化、原子電荷的改變以及離去基團的附著。在基于ReactSeq的逆合成模型中,反應物不是從頭開始逐個生成。相反地,它是通過這些MEO從產物分子轉化而來。這確保了預測反應物和產物之間的精確原子映射,增強了模型的可解釋性。研究顯示,利用ReactSeq,只需要簡單的Transformer模型便能在逆合成預測中實現(xiàn)先進的性能。
ReactSeq具有表示MEO的顯式令牌,可對人類指令進行編碼。結果表明,人類專家的提示可提高模型性能,甚至指導它探索新的反應。同時,這些MEO令牌利于提取反應表示。與聚合整個ReactSeq的嵌入相比,專注于這些MEO令牌的嵌入可以產生更加忠實且具有內在化學意義的反應表示?;谶@一策略并結合自監(jiān)督學習,研究人員構建了通用且可靠的反應表示方法。該方法能夠自然區(qū)分反應類型并評估其相似性,從而促進相似反應的檢索、實驗流程的推薦及反應收率的預測。
該研究通過創(chuàng)新的化學語言設計,為垂直領域的大語言模型賦予了新能力。同時,這一成果提升了自然語言處理模型應對復雜化學問題的能力,為化學人工智能基礎模型的發(fā)展提供了新方向。
5月13日,相關研究成果在線發(fā)表在《自然-機器智能》(Nature Machine Intelligence)上。研究工作得到國家自然科學基金、國家重點研發(fā)計劃、中國科學院戰(zhàn)略性先導科技專項等的支持。
基于SMILES的傳統(tǒng)反應預測語言模型與基于ReactSeq的方法的對比
© 1996 - 中國科學院 版權所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
© 1996 - 中國科學院 版權所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
© 1996 - 中國科學院 版權所有
京ICP備05002857號-1京公網(wǎng)安備110402500047號
網(wǎng)站標識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話:86 10 68597114(總機)
86 10 68597289(總值班室)