——習(xí)近平總書記在致中國科學(xué)院建院70周年賀信中作出的“兩加快一努力”重要指示要求
——中國科學(xué)院辦院方針
語音播報
近日,由中國科學(xué)院軟件研究所天基綜合信息系統(tǒng)全國重點(diǎn)實(shí)驗(yàn)室與智能博弈重點(diǎn)實(shí)驗(yàn)室完成的研究成果Demo2Test:?Transfer?Testing?of?Agent?in?Competitive?Environment?with?Failure?Demonstrations被ACM?Transactions?on?Software?Engineering?and?Methodology接收。該研究關(guān)注競爭性博弈智能體的測試問題,提出了對抗環(huán)境中智能體的遷移測試方法——Demo2Test。
在對抗環(huán)境中,雙方智能體通過激烈競爭以爭奪博弈的勝利。智能體博弈策略失效可能帶來損失,因而對其進(jìn)行有效測試顯得尤為重要。當(dāng)前方法主要是通過構(gòu)建測試智能體,與目標(biāo)智能體展開競爭,以誘發(fā)其故障。然而,此類方法往往局限于單一任務(wù),進(jìn)行多任務(wù)測試則需耗費(fèi)更多時間,且難以保證測試的全面性和有效性。因此,亟需提出高效而通用的智能體測試方法。
該團(tuán)隊提出了新的遷移測試方法——Demo2Test。該方法利用源任務(wù)的演示數(shù)據(jù),結(jié)合強(qiáng)化學(xué)習(xí)和生成對抗模仿學(xué)習(xí),對測試智能體進(jìn)行遷移訓(xùn)練,以探索目標(biāo)任務(wù)中的失效場景。同時,該方法包含一個關(guān)鍵狀態(tài)下的動作擾動模塊,應(yīng)用進(jìn)化算法對關(guān)鍵狀態(tài)下的行動進(jìn)行擾動,可進(jìn)一步豐富失效場景的多樣性。
為驗(yàn)證Demo2Test框架的有效性,該團(tuán)隊在MuJoCo仿真機(jī)器人競爭環(huán)境中進(jìn)行了嚴(yán)格實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,Demo2Test在發(fā)現(xiàn)失效場景的數(shù)量和多樣性方面均表現(xiàn)出色,相較于最佳基線分別提升了36.99%至87.98%和18.79%至60.98%。進(jìn)而,該團(tuán)隊利用Demo2Test發(fā)現(xiàn)的失效場景對目標(biāo)智能體進(jìn)行了重新訓(xùn)練。研究顯示,與基線方法相比,Demo2Test性能提升范圍為4.76%到80%。這驗(yàn)證了Demo2Test在智能體測試與優(yōu)化方面的有效性,為智能體測試領(lǐng)域帶來了新的思路與方法。
Demo2Test框架圖
© 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)
© 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)
© 1996 - 中國科學(xué)院 版權(quán)所有
京ICP備05002857號-1京公網(wǎng)安備110402500047號
網(wǎng)站標(biāo)識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話:86 10 68597114(總機(jī))
86 10 68597289(總值班室)