——習(xí)近平總書記在致中國(guó)科學(xué)院建院70周年賀信中作出的“兩加快一努力”重要指示要求
——中國(guó)科學(xué)院辦院方針
語音播報(bào)
簡(jiǎn)單問題需要復(fù)雜處理
汪昆先描摹了機(jī)器人參加高考的情境:在讀文字、聽聽力、識(shí)圖的過程中,機(jī)器人首先要把人類的語言、圖形“映射”為計(jì)算機(jī)能夠處理的形式語言,再進(jìn)行分析、理解和處理,最后以人類能夠理解的方式呈現(xiàn)答案。
“這個(gè)過程會(huì)涉及語音識(shí)別、自然語言處理、自動(dòng)問答和自然語言生成等諸多環(huán)節(jié)。”汪昆說。假如,我們給機(jī)器人出道題——姚明的身高是多少?對(duì)于這句話,機(jī)器人首先并不清楚哪幾個(gè)字是一個(gè)詞,它就要先做中文分詞,然后進(jìn)行具體命名實(shí)體識(shí)別,把這個(gè)句子里關(guān)鍵的人物、地點(diǎn)等信息識(shí)別出來,接著進(jìn)行句法和語義分析,最終理解問題后,再在相應(yīng)的知識(shí)庫去搜索答案,然后以人類的方式給出回答。
機(jī)器人知識(shí)庫的形成可以通過人工總結(jié),也可以通過在互聯(lián)網(wǎng)大數(shù)據(jù)庫中自動(dòng)挖掘?!跋啾戎拢斯た偨Y(jié)的方法成本較大,可靠性比較有保證。而網(wǎng)絡(luò)數(shù)據(jù)量大、時(shí)效性強(qiáng),但有時(shí)受網(wǎng)絡(luò)資源本身的限制,有可能會(huì)產(chǎn)生一些誤差甚至錯(cuò)誤?!蓖衾フf。
“推理”讓機(jī)器人“頭大”
姚明身高的問題可能還相對(duì)簡(jiǎn)單,如果換成“姚明老婆的身高是多少”,機(jī)器人的“大腦”可就得多轉(zhuǎn)幾圈了。“因?yàn)檫@涉及知識(shí)推理。”汪昆解釋說。機(jī)器人要把“姚明老婆”的表述準(zhǔn)確轉(zhuǎn)化為“葉莉”,再到有關(guān)葉莉的知識(shí)庫里去搜尋答案。如果一個(gè)表達(dá)涉及多層的語義轉(zhuǎn)化和推理,對(duì)機(jī)器人來說就比較難了。
目前,“機(jī)器人高考”的每一個(gè)技術(shù)層面都有需要進(jìn)一步攻克的難點(diǎn)。比如,自然語言處理目前在中文分詞和實(shí)體識(shí)別上的準(zhǔn)確率是95%以上,而對(duì)于更難的句法和語義分析,仍有待提高。對(duì)于比較復(fù)雜的知識(shí)推理,機(jī)器人處理起來會(huì)覺得很“頭大”。
汪昆介紹說,相比中文,英文更容易被機(jī)器人理解。一方面由于英文的相關(guān)技術(shù)研發(fā)起步早、發(fā)展快,另一方面因?yàn)橛⑽谋旧碚Z言上的特點(diǎn),便于機(jī)器人進(jìn)行判斷。
據(jù)了解,目前我國(guó)在機(jī)器人自然語言處理及機(jī)器翻譯上的技術(shù)水平已經(jīng)達(dá)到國(guó)際領(lǐng)先,跟歐洲的技術(shù)水平不相上下,而跟該領(lǐng)域的強(qiáng)國(guó)——美國(guó)相比,差距也在逐漸縮小。但是,無論是哪一個(gè)國(guó)家,要實(shí)現(xiàn)機(jī)器人的自然語言處理水平跟人類一樣,還有很遠(yuǎn)的路要走。
多國(guó)競(jìng)技“高考”機(jī)器人
可見,以目前機(jī)器人的“智力”來說,要在高考中拿滿分,成為真“學(xué)霸”還是很難的。“現(xiàn)在如果讓機(jī)器人參加高考,可能英語的分?jǐn)?shù)會(huì)相對(duì)高些,因?yàn)楸绕鹫Z文、數(shù)學(xué)等,推理的難度相對(duì)小一點(diǎn)?!蓖衾フf。我國(guó)目前也有一批科研團(tuán)隊(duì)在專門研究“高考機(jī)器人”,目的就是通過“高考”這個(gè)應(yīng)用場(chǎng)景以點(diǎn)帶面,不斷攻關(guān)難題,帶來相關(guān)技術(shù)的突破,拓展機(jī)器人應(yīng)用。
實(shí)際上,其他國(guó)家也在“高考”機(jī)器人方面展開了競(jìng)技。日本國(guó)立信息學(xué)研究所等機(jī)構(gòu)在2011年啟動(dòng)“東Robo君”人工智能開發(fā)項(xiàng)目,目的是讓機(jī)器人“東Robo君”在2021年前通過東京大學(xué)入學(xué)考試。盡管它近幾年的考試成績(jī)跟東京大學(xué)的分?jǐn)?shù)線還相差較遠(yuǎn),但每一年都會(huì)有進(jìn)步。IBM的機(jī)器人Watson曾在知識(shí)答題節(jié)目中擊敗兩位人類選手,如今還在不斷進(jìn)行金融服務(wù)、零售、醫(yī)療等方面的深度學(xué)習(xí),創(chuàng)造力不斷提升,甚至能自己設(shè)計(jì)菜譜。
汪昆對(duì)我國(guó)未來自然語言處理技術(shù)的發(fā)展很有信心。他認(rèn)為,做針對(duì)中文的機(jī)器人自然語言處理研究,我國(guó)科研人員更有優(yōu)勢(shì)。“這是母語,而且現(xiàn)在我國(guó)一大批互聯(lián)網(wǎng)公司興起,互聯(lián)網(wǎng)+氛圍濃厚,很多創(chuàng)新創(chuàng)業(yè)都會(huì)涉及自然語言處理的相關(guān)技術(shù)。由于國(guó)家支持,很多公司愿意投入,這樣就會(huì)有更多的人才進(jìn)入這個(gè)領(lǐng)域,很多學(xué)生也愿意從事相關(guān)方面的學(xué)習(xí)和技能培訓(xùn),一個(gè)良性發(fā)展的創(chuàng)新圈已經(jīng)形成?!?/p>
?。ㄔd于《經(jīng)濟(jì)日?qǐng)?bào)》 2015-06-18 15版)
© 1996 - 中國(guó)科學(xué)院 版權(quán)所有 京ICP備05002857號(hào)-1 京公網(wǎng)安備110402500047號(hào) 網(wǎng)站標(biāo)識(shí)碼bm48000002
地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864
電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)
© 1996 - 中國(guó)科學(xué)院 版權(quán)所有 京ICP備05002857號(hào)-1 京公網(wǎng)安備110402500047號(hào) 網(wǎng)站標(biāo)識(shí)碼bm48000002
地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864
電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)
© 1996 - 中國(guó)科學(xué)院 版權(quán)所有
京ICP備05002857號(hào)-1京公網(wǎng)安備110402500047號(hào)
網(wǎng)站標(biāo)識(shí)碼bm48000002
地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864
電話:86 10 68597114(總機(jī))
86 10 68597289(總值班室)