日本一道本高清一区二区-色妞熟女午夜福利在线视频-欧美成人情激情免费看-老司机午夜精品免费视频

加快打造原始創(chuàng)新策源地,加快突破關(guān)鍵核心技術(shù),努力搶占科技制高點(diǎn),為把我國建設(shè)成為世界科技強(qiáng)國作出新的更大的貢獻(xiàn)。

——習(xí)近平總書記在致中國科學(xué)院建院70周年賀信中作出的“兩加快一努力”重要指示要求

面向世界科技前沿、面向經(jīng)濟(jì)主戰(zhàn)場(chǎng)、面向國家重大需求、面向人民生命健康,率先實(shí)現(xiàn)科學(xué)技術(shù)跨越發(fā)展,率先建成國家創(chuàng)新人才高地,率先建成國家高水平科技智庫,率先建設(shè)國際一流科研機(jī)構(gòu)。

——中國科學(xué)院辦院方針

首頁 > 傳媒掃描

【中國科學(xué)報(bào)】新技術(shù)讓虛擬主播“多才多藝”

2020-05-14 中國科學(xué)報(bào) 秦志偉
【字體:

語音播報(bào)

  在主持界,新員工剛一上崗就播報(bào)全國兩會(huì)是一件可遇不可求的事,但新華社的“新小萌”做到了。在去年的全國兩會(huì)上,“新小萌”向全世界報(bào)道中國兩會(huì)盛況。其中,她播報(bào)的一條某人大代表的議案新聞,幾小時(shí)內(nèi)在新華社客戶端的瀏覽量就超過百萬。

  “新小萌”是誰?你可能已經(jīng)猜到了,她并不是真人,而是模仿真人的虛擬主播。

  這樣的虛擬主播正陸續(xù)走進(jìn)人們的視野,但在科學(xué)家看來,它們還不夠完美?!半S著應(yīng)用場(chǎng)景的不斷豐富,一個(gè)優(yōu)秀的虛擬主播需要‘多才多藝’?!敝锌圃鹤詣?dòng)化研究所模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室研究員赫然告訴《中國科學(xué)報(bào)》,“多才多藝”依賴于音視頻生成技術(shù)的不斷發(fā)展。

  優(yōu)秀虛擬主播的特質(zhì)

  赫然在接受《中國科學(xué)報(bào)》采訪時(shí)表示,一位“多才多藝”的虛擬主播不僅可以語音播報(bào),還要實(shí)現(xiàn)自然交互,以滿足線上人工服務(wù)和線下智能終端產(chǎn)品需求,成為可視化客服產(chǎn)品。

  一般而言,當(dāng)虛擬主播播報(bào)時(shí),我們都會(huì)關(guān)注它的口型是否準(zhǔn)確,表情、動(dòng)作等肢體表達(dá)是否自然。對(duì)于科學(xué)家來說,除了這些直觀感受外,他們還非常關(guān)注視頻的清晰度以及連貫程度等。

  目前,國內(nèi)常見的虛擬主播主要有卡通形象和“真人”形象兩種。由于卡通形象的虛擬主播定制化程度較高,實(shí)現(xiàn)方式相對(duì)簡(jiǎn)單,所以比較常見。從2018年至今,國內(nèi)部分電視臺(tái)主推這種類型的虛擬主播。

  顯然,卡通形象在真實(shí)感上遜色于真人形象的虛擬主播。于是,新華社的“新小萌”、人民日?qǐng)?bào)社的“果果”等虛擬主播出現(xiàn)了。

  但到底怎樣才算真實(shí)?目前并沒有統(tǒng)一標(biāo)準(zhǔn)。在哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授左旺孟看來,虛擬主播的真實(shí)性主要體現(xiàn)生成人臉的逼真度、人物的差異性、視頻的幀間一致性、音視頻的跨模態(tài)一致性等方面。

  這些都依賴于音視頻生成技術(shù),即一種輸入音頻—輸出相應(yīng)視頻時(shí)常使用的數(shù)據(jù)生成技術(shù)。

  中科院自動(dòng)化所模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室博士李祎向《中國科學(xué)報(bào)》介紹,2017年前后出現(xiàn)的早期音視頻生成方法僅適用于特定的單一人物。例如,如果想得到某個(gè)真人形象的虛擬主播,那么首先需要采集大量數(shù)據(jù),然后經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)處理、網(wǎng)絡(luò)訓(xùn)練、性能調(diào)優(yōu)等一套流程,耗時(shí)、耗力。而目前視頻生成技術(shù)主要運(yùn)用三維模型渲染或者生成對(duì)抗網(wǎng)絡(luò),其基本程序是首先建立一個(gè)頭部的三維模型,之后通過頭部三維模型的控制器來控制虛擬主播的口型和動(dòng)作,但這種方法一般需要較長(zhǎng)時(shí)間進(jìn)行模型渲染。

  也就是說,當(dāng)前的視頻生成技術(shù)還無法實(shí)現(xiàn)任意人物協(xié)同生成,這也導(dǎo)致虛擬主播可能會(huì)出現(xiàn)嘴型不合理、逼真程度低等問題。

  赫然也提出,目前真人形象的虛擬主播的發(fā)展仍面臨著定制難度大、成本高等問題。如此,科研人員就有了新任務(wù),即降低制作成本,為不同用戶推出因人而異的真人虛擬主播形象。

  任意人物協(xié)同生成是關(guān)鍵

  近日,中科院自動(dòng)化所智能感知與計(jì)算研究中心提出了一種新穎的音視頻協(xié)同計(jì)算方法,并重點(diǎn)解決了此前難以實(shí)現(xiàn)的任意人物協(xié)同問題。據(jù)悉,該研究論文已被2020國際人工智能聯(lián)合會(huì)議接收。

  相比于以往大多數(shù)音視頻生成方法將重點(diǎn)放在音頻或視頻模態(tài)內(nèi)部,該方法則將注意力放在音視頻模態(tài)之間最重要的問題上,即如何將音頻信息高效充分嵌入視頻信息,同時(shí)考慮如何突出不同人物的差異。

  在赫然看來,如果希望基于一段音頻與視頻生成自然、連貫、準(zhǔn)確的虛擬主播視頻,那么音頻在向視頻轉(zhuǎn)換的過程中的損耗應(yīng)該盡可能小、轉(zhuǎn)換的映射應(yīng)該盡可能準(zhǔn)確,模型對(duì)不同人物說話方式也應(yīng)該具有一定的想象力。

  為此,科研人員精心設(shè)計(jì)了非對(duì)稱式互信息估計(jì)器,以構(gòu)建音視頻模態(tài)間的約束。

  隨著深度學(xué)習(xí)和生成模型的發(fā)展,圖像合成方面的研究也開始逐漸轉(zhuǎn)向視頻合成和多模態(tài)協(xié)同計(jì)算。然而,以虛擬主播為例,音視頻模態(tài)之間的差異性等問題已成為限制其走向應(yīng)用的關(guān)鍵。

  “因此,我們團(tuán)隊(duì)借助于非對(duì)稱式互信息估計(jì)器,以最大化音視頻之間的跨模態(tài)一致性,較好地克服了這一問題,不僅能夠?qū)崿F(xiàn)不同人臉的跨性別合成,而且使生成的口型更加準(zhǔn)確、自然?!弊笸细嬖V《中國科學(xué)報(bào)》。

  廣闊的市場(chǎng)前景

  虛擬主播并不是新鮮事物。早在2001年,英國一家網(wǎng)絡(luò)公司就推出世界上第一個(gè)電視節(jié)目虛擬女主播阿娜諾娃,她可以24小時(shí)持續(xù)播報(bào)。隨后,日本、中國、美國等也出現(xiàn)虛擬主播。但由于技術(shù)不成熟和市場(chǎng)需求不強(qiáng)烈等,虛擬主播熱并沒有持續(xù)下去。

  從2017年開始,我國再度出現(xiàn)虛擬主播的身影,近兩年也呈現(xiàn)了較好的發(fā)展態(tài)勢(shì)。如今,在國內(nèi)部分網(wǎng)站上活躍的虛擬主播粉絲數(shù)量已達(dá)到幾十萬甚至百萬。

  在左旺孟看來,隨著網(wǎng)絡(luò)教育、日常工作和生活中對(duì)視頻內(nèi)容的需求提升,虛擬主播技術(shù)有望成為未來音視頻生成領(lǐng)域的研究熱點(diǎn)之一。

  中科院自動(dòng)化所模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室博士宋林森告訴《中國科學(xué)報(bào)》,除了應(yīng)用較多的娛樂場(chǎng)景,虛擬主播技術(shù)也可以在其他領(lǐng)域?qū)崿F(xiàn)應(yīng)用,如電影配音、抖音對(duì)口型、虛擬客戶服務(wù)、虛擬形象視頻會(huì)議等。

  相關(guān)論文信息:https://arxiv.org/abs/1812.06589v1

 ?。ㄔd于《中國科學(xué)報(bào)》 2020-05-14 第3版 信息技術(shù))
打印 責(zé)任編輯:侯茜

掃一掃在手機(jī)打開當(dāng)前頁

© 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號(hào)-1 京公網(wǎng)安備110402500047號(hào) 網(wǎng)站標(biāo)識(shí)碼bm48000002

地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864

電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)

  • © 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號(hào)-1 京公網(wǎng)安備110402500047號(hào) 網(wǎng)站標(biāo)識(shí)碼bm48000002

    地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864

    電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)

  • © 1996 - 中國科學(xué)院 版權(quán)所有
    京ICP備05002857號(hào)-1
    京公網(wǎng)安備110402500047號(hào)
    網(wǎng)站標(biāo)識(shí)碼bm48000002

    地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864
    電話:86 10 68597114(總機(jī))
       86 10 68597289(總值班室)