日本一道本高清一区二区-色妞熟女午夜福利在线视频-欧美成人情激情免费看-老司机午夜精品免费视频

加快打造原始創(chuàng)新策源地,加快突破關(guān)鍵核心技術(shù),努力搶占科技制高點,為把我國建設(shè)成為世界科技強國作出新的更大的貢獻。

——習(xí)近平總書記在致中國科學(xué)院建院70周年賀信中作出的“兩加快一努力”重要指示要求

面向世界科技前沿、面向經(jīng)濟主戰(zhàn)場、面向國家重大需求、面向人民生命健康,率先實現(xiàn)科學(xué)技術(shù)跨越發(fā)展,率先建成國家創(chuàng)新人才高地,率先建成國家高水平科技智庫,率先建設(shè)國際一流科研機構(gòu)。

——中國科學(xué)院辦院方針

首頁 > 科研進展

軟件所提出小批量數(shù)據(jù)采樣策略

2025-05-27 軟件研究所
【字體:

語音播報

近日,中國科學(xué)院軟件研究所科研團隊提出了小批量數(shù)據(jù)采樣策略,可消除由不可觀測變量語義引起的虛假關(guān)聯(lián)對表征學(xué)習(xí)的干擾,來提升自監(jiān)督學(xué)習(xí)模型分布外泛化能力。

自監(jiān)督學(xué)習(xí)的分布外泛化能力是指模型在面對與訓(xùn)練數(shù)據(jù)分布不同的測試數(shù)據(jù)時,仍能夠保持良好性能。簡單來說,模型需要在“未見過”的數(shù)據(jù)分布上表現(xiàn)得和在訓(xùn)練數(shù)據(jù)上一樣好。但是,有研究發(fā)現(xiàn),自監(jiān)督學(xué)習(xí)模型在訓(xùn)練過程中受到與學(xué)習(xí)任務(wù)無關(guān)的不可觀測變量的語義干擾,從而削弱分布外泛化能力。

該研究基于因果效應(yīng)估計等手段,提出小批量數(shù)據(jù)采樣策略,來消除不可觀測變量語義干擾的混雜影響。這一策略通過學(xué)習(xí)隱變量模型,來估計在給定“錨點”樣本的條件下,不可觀測語義變量的后驗概率分布,將其記為平衡分數(shù)。進而,該策略將具有相同或相近平衡分數(shù)的樣本對劃分為同一個小批量數(shù)據(jù)集,確保每個小批量數(shù)據(jù)集內(nèi)的不可觀測語義變量與“錨點”樣本在條件上是獨立的,從而幫助模型避免學(xué)習(xí)到虛假關(guān)聯(lián),提升模型的分布外泛化能力。

進一步,該研究在基準數(shù)據(jù)集上進行了廣泛實驗。所有實驗均僅替換批次生成機制,無需調(diào)整模型架構(gòu)或超參數(shù)。實驗顯示,這一采樣策略使當(dāng)前主流自監(jiān)督學(xué)習(xí)方法在各類評估任務(wù)上至少提高2%的表現(xiàn)。具體而言,在ImageNet?100和ImageNet的分類任務(wù)中,Top 1和Top 5準確率均超越自監(jiān)督方法SOTA;在半監(jiān)督場景下的分類任務(wù)中,Top 1和Top 5準確率分別提升超3%和2%;目標(biāo)檢測與實例分割遷移學(xué)習(xí)任務(wù)中,各項平均精度均獲得穩(wěn)定增益;對于Omniglot、miniImageNet和CIFAR?FS等少樣本轉(zhuǎn)移學(xué)習(xí)任務(wù),性能提升超5%。實驗表明,這一采樣策略可以弱化虛假關(guān)聯(lián)、強化因果學(xué)習(xí),并能夠提升分布外泛化能力。

相關(guān)研究成果被CCF-A類人工智能頂級學(xué)術(shù)會議International?Conference?on?Machine?Learning(ICML-25)接收。

論文鏈接

打印 責(zé)任編輯:侯茜

掃一掃在手機打開當(dāng)前頁

© 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002

地址:北京市西城區(qū)三里河路52號 郵編:100864

電話: 86 10 68597114(總機) 86 10 68597289(總值班室)

  • © 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002

    地址:北京市西城區(qū)三里河路52號 郵編:100864

    電話: 86 10 68597114(總機) 86 10 68597289(總值班室)

  • © 1996 - 中國科學(xué)院 版權(quán)所有
    京ICP備05002857號-1
    京公網(wǎng)安備110402500047號
    網(wǎng)站標(biāo)識碼bm48000002

    地址:北京市西城區(qū)三里河路52號 郵編:100864
    電話:86 10 68597114(總機)
       86 10 68597289(總值班室)