從“試錯”到“智能創(chuàng)造”
機(jī)器化學(xué)家來了
在人們的傳統(tǒng)印象里,在實驗室搞研究的都是穿白大褂的科研人員。但在中國科學(xué)技術(shù)大學(xué)(以下簡稱中國科大)機(jī)器化學(xué)家實驗室里,卻是另一番景象:這里沒有一個人,只有動作靈活的機(jī)器人在操作臺之間來回穿梭,伸出機(jī)械手臂配制試劑。它不僅能夠做實驗,還會自主設(shè)計實驗步驟和方案。
這款全球首個集閱讀文獻(xiàn)、設(shè)計實驗、自主優(yōu)化等功能于一體,覆蓋化學(xué)品開發(fā)全流程的機(jī)器化學(xué)家平臺,被科研人員形象地稱為“機(jī)器化學(xué)家”。
實驗室負(fù)責(zé)人、中國科大化學(xué)物理系教授江俊介紹:“從數(shù)百萬種材料的可能組合中找到最優(yōu)解,科研人員也許一生都做不完;有了機(jī)器化學(xué)家,可能只需要一兩周時間。”
機(jī)器化學(xué)家融合了大數(shù)據(jù)、人工智能和自動化的強(qiáng)大優(yōu)勢,為化學(xué)這一傳統(tǒng)學(xué)科提供了新的研究范式。
那么,這款如此聰慧的機(jī)器化學(xué)家是如何誕生的?時任中國科大化學(xué)物理系執(zhí)行主任、現(xiàn)任中國科大合肥微尺度物質(zhì)科學(xué)國家研究中心主任羅毅說:“這是天時、地利、人和的結(jié)果?!?/p>
機(jī)器化學(xué)家“小來”在做實驗。中國科大供圖
1?天時:科研發(fā)展的必然
2011年底,江俊決定回國加入中國科大,與他在瑞典皇家理工學(xué)院攻讀博士學(xué)位的導(dǎo)師羅毅再次攜手。
兩人都從事理論和計算化學(xué)方面的研究,但各有側(cè)重。羅毅主攻解析高分辨單分子化學(xué)成像,江俊則更關(guān)注材料設(shè)計和微觀機(jī)理的研究。
2013年底的一天,羅毅與江俊一起出差。在路上,羅毅拋出一個問題:基于獨(dú)立事例的理論計算,雖然符合傳統(tǒng)研究范式,但效率太低。有沒有可能通過大數(shù)據(jù)技術(shù)提高效率?
江俊經(jīng)過調(diào)研后發(fā)現(xiàn),我國嚴(yán)重缺乏科學(xué)數(shù)據(jù)的積累,在學(xué)術(shù)上非常被動。
“我們做了大量研究工作,但最終成果發(fā)表在外文期刊上。引用這些論文數(shù)據(jù)時還得花錢買,并且只有訪問權(quán),不允許大量下載?!苯≌J(rèn)為,要用好大數(shù)據(jù)技術(shù),必須首先建立數(shù)據(jù)系統(tǒng)。
從2014年起,江俊帶領(lǐng)學(xué)生收集教科書、論文、專利中“沉淀”的化學(xué)經(jīng)驗和知識,用3年搭建起“中國人自己的化學(xué)材料大數(shù)據(jù)庫”。
有了足夠的數(shù)據(jù)后,接下來的問題就是如何使用。在技術(shù)上,人工智能是處理大數(shù)據(jù)最好的手段。然而,這對羅毅、江俊而言是一個全新的工具。
不懂就學(xué),知難而上。他們以自己熟悉的譜學(xué)、催化為抓手,應(yīng)用人工智能方法開展研究,取得了良好的效果。值得一提的是,江俊發(fā)現(xiàn)的多個功能強(qiáng)大的描述符,被《科學(xué)》雜志兩次專文推薦。
雖然融合了人工智能技術(shù),但如何用大數(shù)據(jù)解決實際的化學(xué)問題,依舊是個挑戰(zhàn)?!耙驗閿?shù)據(jù)本身缺乏知識邏輯的關(guān)聯(lián)?!绷_毅說。
2017年的一天,羅毅想到一個好點(diǎn)子:可否借助本校兩位教授在發(fā)光材料、催化劑領(lǐng)域的深厚積累,將他們的知識與大數(shù)據(jù)庫融合?
他激動地將江俊叫到辦公室,說:“你把張國慶、熊宇杰發(fā)表的論文全部讀一遍,這樣就能形成一個‘張國慶大腦’、一個‘熊宇杰大腦’。研究發(fā)光材料時,就調(diào)用‘張國慶大腦’;設(shè)計催化劑時,就調(diào)用‘熊宇杰大腦’。這樣一來,我們這些化學(xué)知識不足的人也可以用好數(shù)據(jù)了?!?/p>
就這樣,江俊和同學(xué)們一起對海量文本數(shù)據(jù)進(jìn)行人工標(biāo)注,逐步賦予計算機(jī)自主閱讀并分析文獻(xiàn)資料的能力,僅用兩年就成功培育出一顆“化學(xué)大腦”。
“化學(xué)大腦”有了,下一步就是想辦法給大腦配上可以實際操作的“雙手”。
2020年,英國利物浦大學(xué)安德魯·庫珀團(tuán)隊建造了世界首個移動機(jī)器人實驗員。研讀完他們發(fā)表的相關(guān)文章,江俊信心滿滿地對羅毅說:“我們不但可以讓機(jī)器人做實驗,還可以給機(jī)器人配上‘化學(xué)大腦’?!?/p>
同年,在中國科大的一次交叉學(xué)科論壇上,江俊認(rèn)識了該校信息科學(xué)技術(shù)學(xué)院從事機(jī)器人研究的副教授尚偉偉,兩人在聯(lián)手研發(fā)機(jī)器化學(xué)家上一拍即合。
于是,在江俊的帶領(lǐng)下,他們迅速組織了一個青年團(tuán)隊,夜以繼日協(xié)同攻關(guān)。
2021年12月,全球首個數(shù)據(jù)智能驅(qū)動的機(jī)器化學(xué)家,終于在中國誕生了。它融合“化學(xué)大腦”,集成了兩臺移動機(jī)器人、19個智能化學(xué)工作站和高通量計算系統(tǒng),覆蓋科學(xué)研究方法論全流程。
2022年9月,相關(guān)研究成果發(fā)表在《國家科學(xué)評論》上。審稿專家如此評價:這款機(jī)器化學(xué)家的“機(jī)器人系統(tǒng)、工作站和智能化學(xué)大腦都是最先進(jìn)的”,“將對化學(xué)科學(xué)產(chǎn)生巨大影響”。
“機(jī)器化學(xué)家不是某天一拍腦袋就能做出來的?!绷_毅說,“這是我們與時俱進(jìn)、吸納新知識、利用新技術(shù)解決問題的過程,也是持續(xù)進(jìn)行科研探索的必然結(jié)果?!?/p>
2?地利:多學(xué)科交叉的優(yōu)勢
創(chuàng)造出這樣一位能閱讀、能思考、能實踐、能最終解決問題的機(jī)器化學(xué)家,并非易事。
江俊認(rèn)為,這主要得益于中國科學(xué)院集成攻關(guān)的傳統(tǒng)和中國科大寬松的科研環(huán)境、多學(xué)科交叉的優(yōu)勢。
他回憶,大數(shù)據(jù)模型建立后,需要在實驗中進(jìn)一步驗證,這意味著更大的投入。
2021年初,中國科學(xué)院發(fā)布了當(dāng)年基礎(chǔ)前沿和關(guān)鍵核心技術(shù)中的重大科學(xué)問題清單,“數(shù)據(jù)驅(qū)動的化學(xué)、材料和生物科學(xué)的機(jī)器科學(xué)家”是46個項目之一。
江俊鼓起勇氣,決定“揭榜掛帥”。很快,他的項目申請獲得通過。從2021年到2025年,中國科學(xué)院將拿出2000萬元經(jīng)費(fèi),給予江俊團(tuán)隊連續(xù)5年的穩(wěn)定支持。
也是在2021年,江俊向中國科大提交了一份“‘雙一流’學(xué)科重點(diǎn)項目建議表”。學(xué)校研究后,給予1000萬元經(jīng)費(fèi)支持。同時,中國科大合肥微尺度物質(zhì)科學(xué)國家研究中心、化學(xué)與材料科學(xué)學(xué)院出手相援,為研發(fā)團(tuán)隊提供了研發(fā)場地、調(diào)配了研究設(shè)備。
“這種快速決策、快速支持、快速撥款的響應(yīng)機(jī)制給了我很大激勵,也為研究提供了及時、充分的保障。在人工智能領(lǐng)域,技術(shù)迭代速度極快,一步落后就會步步落后。”江俊說。
中國科大還有一個天然優(yōu)勢:這里會聚了不同學(xué)科背景的科研人員,他們可以優(yōu)勢互補(bǔ)、協(xié)同攻關(guān),更加快速地把構(gòu)想變成現(xiàn)實。
例如,機(jī)器人是整個平臺中的重要一環(huán)。當(dāng)初,尚偉偉與江俊商量后,愿意改變團(tuán)隊的研究方向,專門研發(fā)實驗機(jī)器人。
安德魯·庫珀在參觀機(jī)器化學(xué)家實驗室時,最羨慕的就是江俊他們擁有自己的機(jī)器人研發(fā)團(tuán)隊。江俊頗為自豪地說:“化學(xué)機(jī)器人指令集的每一行代碼都是我們團(tuán)隊自己寫出來的,如果要做一個新的動作,可以隨時調(diào)整代碼。安德魯·庫珀則必須請公司改代碼,因為他的機(jī)器人是買來的?!?/p>
研究團(tuán)隊在控制室分析電催化機(jī)器實驗數(shù)據(jù)結(jié)果。張大崗/攝
3?人和:年輕團(tuán)隊的助力
和機(jī)器化學(xué)家一樣年輕的,是研發(fā)團(tuán)隊——其成員以朝氣蓬勃的“90后”“95后”為主。
“這群年輕人做出的東西比我想象的好得多,每一步的研究結(jié)果都超出預(yù)期。”羅毅說。
例如,在早期的數(shù)據(jù)采集工作中,還是中國科大少年班學(xué)院本科生的肖恒宇、霍姚遠(yuǎn)、馮超就表現(xiàn)出超強(qiáng)的研發(fā)能力。
剛開始,羅毅、江俊定期開討論會,為學(xué)生們提供指導(dǎo)。但在討論會上,他倆發(fā)現(xiàn)很多時候根本插不上話。之后經(jīng)常出現(xiàn)的場面是,學(xué)生熱火朝天地討論,老師在一旁安靜地聽、欣慰地看。
“不得不承認(rèn),信息科學(xué)時代,年輕人比我們的感覺更敏銳、理解力更強(qiáng),他們的思維方式早就‘?dāng)?shù)字化’了?!庇谑牵_毅與江俊達(dá)成一致——把最重要、最困難的事情交給年輕人去做。
結(jié)果證明,他們的決定是對的。
在機(jī)器化學(xué)家創(chuàng)建中,除了搭建數(shù)據(jù)庫外,肖恒宇還自學(xué)計算機(jī)軟件,開發(fā)出操作系統(tǒng)1.0版本。該操作系統(tǒng)既符合化學(xué)實驗的操作習(xí)慣,又能發(fā)揮機(jī)器人的自動化優(yōu)勢,還能嵌入智能模型。
近期,肖恒宇又將操作系統(tǒng)升級到2.0版本,實現(xiàn)了硬件即插即用、模型普適遷移和操作云端共享。
專業(yè)工程師看了該架構(gòu)都驚嘆不已:“類似的框架只在西門子智能實驗室看到過,只有經(jīng)驗豐富的工程師團(tuán)隊花費(fèi)很高成本才能開發(fā)出來?!?/p>
人工智能領(lǐng)域有一句話:有多少智能,背后就有多少人工。
培育“化學(xué)大腦”最重要的是賦予計算機(jī)理解物質(zhì)的能力。當(dāng)時,正在讀碩士研究生的張百成,沒日沒夜地標(biāo)注了幾個星期,文獻(xiàn)讀得頭昏腦漲,但完成的工作量微乎其微。
后來他改變“打法”,找了多位有專業(yè)背景的同學(xué)聯(lián)合作戰(zhàn)。他們一起構(gòu)建化學(xué)詞典、整理反應(yīng)數(shù)據(jù),很快設(shè)計出第一代文獻(xiàn)閱讀系統(tǒng),得到了第一批高質(zhì)量的標(biāo)記數(shù)據(jù)。
“95后”趙路遠(yuǎn)結(jié)合本科學(xué)的電子工程知識,主攻化學(xué)工作站改造。她記得,與師弟曹嘉祺一起編寫固體進(jìn)樣儀器的驅(qū)動程序時,由于信息掌握不充分,無法準(zhǔn)確理解并調(diào)用儀器接口。他們多次咨詢國外廠商和代理商,得到的回應(yīng)都是“無可奉告”“商業(yè)機(jī)密”。
“后來,我們花了3個星期,重復(fù)做了3000次發(fā)送信號、等待反饋和記錄響應(yīng)實驗,逐步逆向試出底層控制邏輯,成功實現(xiàn)了對機(jī)器人的遠(yuǎn)程控制?!壁w路遠(yuǎn)說,國外廠商反過來主動聯(lián)系他們,想購買他們研發(fā)的驅(qū)動程序。
類似這樣的事,在機(jī)器化學(xué)家項目攻關(guān)中并不鮮見。
令江俊欣慰的是,這群年輕人從不以專業(yè)限制自己,而是主動學(xué)習(xí)、迎難而上,想方設(shè)法解決問題。
眼下,這群學(xué)生已成為實驗室的骨干,各有各的絕活兒。其中,肖恒宇正在設(shè)計集中式大規(guī)模機(jī)器科學(xué)家平臺,張百成在賦予機(jī)器人譜學(xué)智能,趙路遠(yuǎn)在探索適配產(chǎn)業(yè)應(yīng)用的化學(xué)工作站。
4?表現(xiàn):科研能力超強(qiáng)
數(shù)千年來,人類在化學(xué)領(lǐng)域不斷解鎖物質(zhì)世界的奧秘,制造出許多令人驚嘆的物品和材料。
然而,化學(xué)又是一門需要一點(diǎn)“運(yùn)氣”的學(xué)科。能產(chǎn)生反應(yīng)的物質(zhì)有很多,不同的量會帶來不同的結(jié)果。更關(guān)鍵的是,反應(yīng)釜完全是個“黑箱”,里面會發(fā)生什么、過程如何,在很多情況下是無法計算和計量的。
因此,在化學(xué)領(lǐng)域總有一些“無心插柳”的成果,也有一些“徒勞無功”的無奈。得到想要的結(jié)果,可能需要很長的時間。
機(jī)器化學(xué)家的誕生有望改變這一狀況。
江俊介紹,機(jī)器化學(xué)家通過機(jī)器人精準(zhǔn)的自動化操作能力,可以“不知疲倦”地執(zhí)行任務(wù)。與此同時,“化學(xué)大腦”同步進(jìn)行量子化學(xué)仿真模擬,再融合理論大數(shù)據(jù)和實驗小數(shù)據(jù)產(chǎn)生具有預(yù)測能力的人工智能模型,最終得到算法預(yù)測、驗證全局最優(yōu)的實驗配方。
正是這種理實交融的研究范式,能夠從數(shù)百萬種可能的配方中迅速識別最佳組合,極大加速了新物質(zhì)的發(fā)現(xiàn)過程。
江俊以創(chuàng)制“高熵非貴金屬產(chǎn)氧催化劑”為例,展示機(jī)器化學(xué)家的超強(qiáng)能力。
高熵材料具有高混亂、高無序、高復(fù)雜度的特點(diǎn),能提高能源電池的穩(wěn)定性,對新能源發(fā)展非常重要。如果按照以往的方法,科研人員要從29種非貴金屬元素中選出5種進(jìn)行超過55萬種配比組合,“試錯”研究可能需要1400年。
而機(jī)器化學(xué)家通過閱讀1.6萬篇催化論文,自主遴選出5種非貴金屬元素,并融合2.5萬組理論計算數(shù)據(jù)和207組全流程機(jī)器實驗數(shù)據(jù),建立并優(yōu)化預(yù)測模型,將創(chuàng)制周期縮短為5個星期。
體現(xiàn)機(jī)器化學(xué)家強(qiáng)大科研能力的,還有一項基于火星隕石的催化劑研究。
一直以來,火星移民是人類的夢想。實現(xiàn)這一夢想,首先要解決火星大氣中氧氣缺乏的難題。
就在前不久,機(jī)器化學(xué)家利用火星隕石成功創(chuàng)制出實用的產(chǎn)氧電催化劑。該成果在《自然-合成》發(fā)表后,引發(fā)了很大反響?!蹲匀弧肪W(wǎng)站相關(guān)文章認(rèn)為,此項研究“為火星探測和地外文明探索提供了新的技術(shù)手段”。
江俊介紹,如果用人工方式做實驗,以5種不同的火星礦石作為原料,有超過376萬個配方的排列組合。按每個實驗驗證至少5小時計算,找到最佳配方可能需要2000年。而機(jī)器化學(xué)家只用了5個星期就做完了實驗。給出的優(yōu)化后催化劑配方,可以提供足夠的氧氣。
江俊等人親切地把機(jī)器化學(xué)家命名為“小來”,意味著開啟未來物質(zhì)科學(xué)探索的新紀(jì)元。它與人類智慧的結(jié)合將創(chuàng)建物質(zhì)科學(xué)全新的可能,引領(lǐng)人類在星辰大海中不斷拓寬知識的邊界。
江俊在機(jī)器化學(xué)家實驗室里調(diào)試操作指令。張大崗/攝
5?目標(biāo):數(shù)據(jù)與智能驅(qū)動的化學(xué)研究新范式
放眼全球,在機(jī)器化學(xué)家領(lǐng)域,目前只有英國格拉斯哥大學(xué)和中國科大實現(xiàn)了自動化文獻(xiàn)閱讀功能、英國利物浦大學(xué)和中國科大實現(xiàn)了機(jī)器人可移動性。最為重要的是,國外同行研發(fā)的同類產(chǎn)品均未實現(xiàn)文獻(xiàn)調(diào)研、合成、表征、測試、數(shù)據(jù)處理全流程,可進(jìn)行的研究類型較為單一,離智能化尚有差距。
“這說明我國的機(jī)器化學(xué)家研發(fā)與國際同行處于并跑階段,并在某些方面具有領(lǐng)跑優(yōu)勢,發(fā)展?jié)摿薮??!苯≌f。
從機(jī)器化學(xué)家的成功經(jīng)驗看,羅毅認(rèn)為,未來可以將科學(xué)工程化,把優(yōu)秀科研人員聚集在一起,以機(jī)器為載體,以數(shù)據(jù)為要素,做有組織的科研。
羅毅表示,他們的目標(biāo)是迅速擴(kuò)大機(jī)器化學(xué)家這一技術(shù)平臺的規(guī)模,增強(qiáng)其能力,建成世界上最好的“化學(xué)醫(yī)院”。
“我們希望可以擴(kuò)大平臺規(guī)模、多地聯(lián)動,建成不同形態(tài)的智能機(jī)器人,比如天上飛的、地上跑的、桌面微操作的機(jī)器人,日均完成萬次以上化學(xué)實驗操作,滿足航空航天、醫(yī)療衛(wèi)生、材料科學(xué)、化工原料、生物醫(yī)藥等領(lǐng)域的研發(fā)需求?!?/p>
目前,研發(fā)團(tuán)隊正在賦予機(jī)器人對化學(xué)過程的感知、預(yù)判能力。“比如,賦予機(jī)器人譜學(xué)智能。以前是訓(xùn)練機(jī)器人如何做實驗,現(xiàn)在希望機(jī)器人通過譜學(xué)智能直接看到微觀世界的變化,這樣就能夠更快地預(yù)判化學(xué)變化,超越人對實驗的理解?!绷_毅說。
羅毅期待更多科研人員將重要的科學(xué)問題放到機(jī)器化學(xué)家這個平臺上,以提高科研效率、產(chǎn)出更多新成果。
“我們處在一個技術(shù)快速迭代的時代,要主動擁抱新技術(shù),以積極開放的心態(tài)迎接世界的變化。”羅毅這樣闡述團(tuán)隊的終極目標(biāo):創(chuàng)造出具備創(chuàng)造力的智能化學(xué)家,及早形成數(shù)據(jù)與智能驅(qū)動的化學(xué)研究新范式。
© 1996 - 中國科學(xué)院 版權(quán)所有 聯(lián)系我們 地址:北京市三里河路52號 郵編:100864
京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002