機(jī)電之家 > 機(jī)電號(hào) > 正文 申請(qǐng)入駐

類腦信息處理研究取得進(jìn)展

  近期,中國(guó)科學(xué)院自動(dòng)化研究所類腦智能研究中心類腦信息處理(BRAVE)研究組,在研究員張兆翔的帶領(lǐng)下,在借鑒生物神經(jīng)結(jié)構(gòu)、認(rèn)知機(jī)制與學(xué)習(xí)特性的神經(jīng)網(wǎng)絡(luò)建模與類人學(xué)習(xí)研究中取得了一系列突破性進(jìn)展。該研究組在“視聽(tīng)模態(tài)的生成、融合”以及“智能體之間的知識(shí)遷移”取得了重大突破,系列成果發(fā)表在AAAI 2018上。

  在“視聽(tīng)模態(tài)的融合”問(wèn)題中,該研究組提出了有效將聽(tīng)覺(jué)信息融合在視頻描述生成框架中的特征融合策略,并取得了理想的效果; 在“視聽(tīng)模態(tài)的生成”問(wèn)題中,該研究組提出了一個(gè)跨模態(tài)循環(huán)對(duì)抗生成網(wǎng)絡(luò)、一個(gè)聯(lián)合對(duì)應(yīng)對(duì)抗損失函數(shù)和一個(gè)動(dòng)態(tài)多模態(tài)分類網(wǎng)絡(luò),構(gòu)建出更有效的視聽(tīng)跨模態(tài)相互生成模型;在“智能體之間的知識(shí)遷移”問(wèn)題中,該研究組將一種新類型的知識(shí)——交叉樣本相似性引入到深度度量學(xué)習(xí)中,將知識(shí)形式化成一個(gè)教師和學(xué)生網(wǎng)絡(luò)間的排序匹配問(wèn)題,將經(jīng)典的基于列的學(xué)習(xí)轉(zhuǎn)換成排序?qū)W習(xí)算法,這一方法可大幅提高學(xué)生網(wǎng)絡(luò)的性能,也可得到較傳統(tǒng)方法更好的遷移性能。

  1.視聽(tīng)模態(tài)的融合

  視頻描述生成在很多領(lǐng)域中有著潛在應(yīng)用,比如人機(jī)交互、盲人輔助和視頻檢索。近些年來(lái),受益于卷積神經(jīng)網(wǎng)絡(luò)CNN,遞歸神經(jīng)網(wǎng)絡(luò)和大規(guī)模的視頻描述數(shù)據(jù)集,視頻描述生成已經(jīng)取得比較理想的結(jié)果。

  大多數(shù)視頻描述生成框架可以分為一個(gè)編碼器和一個(gè)解碼器,編碼器對(duì)視頻特征進(jìn)行編碼形成一個(gè)固定長(zhǎng)度的視頻特征向量,解碼器基于該視頻特征生成對(duì)應(yīng)的視頻描述子。研究者們針對(duì)定長(zhǎng)的視頻特征描述子提出了一些方法,比如對(duì)視頻幀進(jìn)行池化操作,下采樣固定長(zhǎng)度的視頻幀,在遞歸網(wǎng)絡(luò)視頻特征編碼階段提取最后一個(gè)時(shí)刻的狀態(tài)表示。

  雖然上述方法均可生成比較合理的視頻描述,但是這些模型的視頻特征編碼都只側(cè)重于視覺(jué)信息而忽略了音頻信息。該課題組認(rèn)為,忽視聲音模態(tài)會(huì)損害模型性能。比如,一個(gè)人躺在床上唱歌。大部分傳統(tǒng)的視頻描述生成方法只關(guān)注視覺(jué)信息而忽略聲音信息,可能會(huì)產(chǎn)生語(yǔ)義不完整的句子:“一個(gè)人躺在床上”。如果可以將音頻信息結(jié)合到模型中,就可以產(chǎn)生語(yǔ)義完整的句子“一個(gè)人躺在床上唱歌”。

  那么如何更合理地利用視聽(tīng)覺(jué)信息?課題組提出并分析了三種視聽(tīng)覺(jué)特征深度融合框架(如圖1所示),第一種為將視聽(tīng)覺(jué)信息簡(jiǎn)單并連在一起,第二種在視聽(tīng)特征編碼階段共享LSTM內(nèi)部記憶單元,建立視聽(tīng)模態(tài)間的短時(shí)依賴性,第三種在視聽(tīng)特征編碼階段共享外部記憶單元,建立視聽(tīng)模態(tài)的長(zhǎng)時(shí)依賴性。

  同時(shí),為了處理聽(tīng)覺(jué)模態(tài)缺失問(wèn)題,課題組提出了一個(gè)動(dòng)態(tài)多模態(tài)特征融合框架(如圖2所示)。其核心模塊為由一個(gè)編碼器和一個(gè)解碼器組成的聽(tīng)覺(jué)推理模型。聽(tīng)覺(jué)推理模型具體為將視覺(jué)特征輸入編碼器進(jìn)行編碼,利用解碼器解碼出對(duì)應(yīng)的聽(tīng)覺(jué)特征,通過(guò)在生成的聽(tīng)覺(jué)特征與真實(shí)的聽(tīng)覺(jué)特征之間增加L2范數(shù)約束來(lái)更新該模型參數(shù),并實(shí)現(xiàn)視覺(jué)特征到聽(tīng)覺(jué)特征的準(zhǔn)確映射。模型在MSR-VTT、MSVD數(shù)據(jù)集上取得了理想的效果。

  2.視聽(tīng)模態(tài)的生成

  視聽(tīng)模態(tài)是視頻中的兩個(gè)共生模態(tài),包含相同和互補(bǔ)信息。利用共同信息可實(shí)現(xiàn)模態(tài)間的相互轉(zhuǎn)換。同時(shí),互補(bǔ)信息可作為先驗(yàn)去輔助相關(guān)工作。因此,充分利用視聽(tīng)模態(tài)間的共同和互補(bǔ)信息可以進(jìn)一步增強(qiáng)相關(guān)任務(wù)的性能。然而,由于環(huán)境干擾和傳感器故障等因素,其中的一個(gè)模態(tài)會(huì)受損或者缺失,從而帶來(lái)一些嚴(yán)重的問(wèn)題,比如消音的影片或者模糊的屏幕。如果可以基于已知模態(tài)生成缺失模態(tài),會(huì)給許多多媒體任務(wù)帶來(lái)好處。因此,課題組致力于創(chuàng)建有效的視聽(tīng)跨模態(tài)相互生成模型。

  傳統(tǒng)的跨模態(tài)相互生成方法主要存在以下幾個(gè)問(wèn)題,一是模態(tài)間存在嚴(yán)重的結(jié)構(gòu)、維度和信息不對(duì)稱性,導(dǎo)致跨模態(tài)相互生成的質(zhì)量不理想。二是模態(tài)間的相互生成是獨(dú)立的,具有很大的不便性。三是其訓(xùn)練過(guò)程并不是端到端的。

  為解決上述問(wèn)題,課題組提出基于循環(huán)對(duì)抗生成網(wǎng)絡(luò)的跨模態(tài)相互生成模型(CMCGAN)。(如圖3所示)

  該模型包含四個(gè)子網(wǎng)絡(luò),分別為A-V(聽(tīng)覺(jué)到視覺(jué)),V-A(視覺(jué)到聽(tīng)覺(jué)),A-A(聽(tīng)覺(jué)到聽(tīng)覺(jué))和V-V(視覺(jué)到視覺(jué))子網(wǎng)絡(luò)。每個(gè)子網(wǎng)絡(luò)均由一個(gè)編碼器和一個(gè)解碼器組成。這四種子網(wǎng)絡(luò)以對(duì)稱的形式組成了兩種生成路徑,一種是V-A-V/A-V-A(視覺(jué)-聽(tīng)覺(jué)-視覺(jué)/聽(tīng)覺(jué)-視覺(jué)-聽(tīng)覺(jué)),另一種為跨模態(tài)生成路徑A-A-V/V-V-A(聽(tīng)覺(jué)-聽(tīng)覺(jué)-視覺(jué)/視覺(jué)-視覺(jué)-聽(tīng)覺(jué))。

  受益于CMCGAN,課題組同時(shí)也提出了一個(gè)動(dòng)態(tài)多模態(tài)分類網(wǎng)絡(luò)。若輸入有兩個(gè)模態(tài),則首先將它們進(jìn)行融合然后輸入到后續(xù)的分類網(wǎng)絡(luò)中。若輸入只有一個(gè)模態(tài),則可基于CMCGAN生成缺失模態(tài),然后將已知模態(tài)和缺失模態(tài)輸入到后續(xù)的動(dòng)態(tài)多模態(tài)分類網(wǎng)絡(luò)中。在該研究中,研究組提出了一個(gè)跨模態(tài)循環(huán)對(duì)抗生成網(wǎng)絡(luò)去實(shí)現(xiàn)跨模態(tài)的視聽(tīng)相互生成;提出了一個(gè)聯(lián)合對(duì)應(yīng)對(duì)抗損失函數(shù)將視聽(tīng)相互生成集成在一個(gè)統(tǒng)一的框架中,該損失函數(shù)不僅可以區(qū)分圖像來(lái)自原始樣本集還是生成集,而且可以判斷(圖像,聲音)是否匹配;針對(duì)不同模態(tài)的輸入,提出了一個(gè)動(dòng)態(tài)多模態(tài)分類網(wǎng)絡(luò)。

  3.智能體之間的知識(shí)遷移

  度量學(xué)習(xí)是許多計(jì)算機(jī)視覺(jué)任務(wù)的基礎(chǔ),包括人臉驗(yàn)證,行人再識(shí)別等。近年,基于度量損失函數(shù)指導(dǎo)的端到端深度度量學(xué)習(xí)取得了很大的成功。這些深度度量學(xué)習(xí)成功的關(guān)鍵因素是網(wǎng)絡(luò)結(jié)構(gòu)的強(qiáng)大。然而,隨著所需表征特征的增強(qiáng),網(wǎng)絡(luò)結(jié)構(gòu)變的更深更寬從而帶來(lái)了嚴(yán)重的計(jì)算負(fù)擔(dān)。在現(xiàn)實(shí)世界的許多應(yīng)用如無(wú)人駕駛上,由于硬件資源的限制,使用這些網(wǎng)絡(luò)會(huì)導(dǎo)致系統(tǒng)產(chǎn)生嚴(yán)重的延時(shí)。為保證安全性,這些系統(tǒng)需要實(shí)時(shí)的響應(yīng)。因此,很難將的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)應(yīng)用到該研究的系統(tǒng)中。

  為緩解該問(wèn)題,研究者們提出了許多模型加速的方法,可簡(jiǎn)單分為三類:網(wǎng)絡(luò)剪枝,模型量化和知識(shí)遷移。網(wǎng)絡(luò)剪枝迭代地刪除對(duì)最后決策不太重要的神經(jīng)元或權(quán)值。模型量化通過(guò)降低網(wǎng)絡(luò)中權(quán)值和激活函數(shù)的表達(dá)準(zhǔn)確性來(lái)增加了網(wǎng)絡(luò)的吞吐量。知識(shí)遷移使用一個(gè)更大更強(qiáng)的老師網(wǎng)絡(luò)去指導(dǎo)一個(gè)小的學(xué)生網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程。在這些方法中,基于知識(shí)遷移的方法是實(shí)際價(jià)值的。跟其他需要定制硬件或者實(shí)現(xiàn)細(xì)節(jié)的方法相比,知識(shí)遷移在沒(méi)有額外開(kāi)銷的情況下也可得到相當(dāng)?shù)哪P图铀傩阅堋?br />
  知識(shí)蒸餾和它的變體是知識(shí)遷移領(lǐng)域的核心方法。盡管它們所使用的知識(shí)形式不同,但都只針對(duì)于單個(gè)樣本。也就是說(shuō),這些方法中的教師網(wǎng)絡(luò)不管在分類層還是中間特征層都只為每個(gè)樣本提供監(jiān)督信息。所有這些方法均忽略了另外一種有價(jià)值的度量——不同樣本之間的關(guān)系。這類知識(shí)同樣編碼了教師網(wǎng)絡(luò)中所嵌入的空間結(jié)構(gòu)。同時(shí),該種知識(shí)所使用的實(shí)例水平的監(jiān)督信息符合度量學(xué)習(xí)的目標(biāo)。圖4展示了研究組的動(dòng)機(jī)。右上角展示了知識(shí)遷移后學(xué)生網(wǎng)絡(luò)可以更好的捕捉圖像相似性。數(shù)字0與6的相似性比數(shù)字3、4、5與6的相似性更大,因此等級(jí)更高。該研究中,課題組解決了以下幾個(gè)問(wèn)題:將一種新類型的知識(shí)——交叉樣本相似性引入到深度度量學(xué)習(xí)中;將知識(shí)形式化成一個(gè)教師和學(xué)生網(wǎng)絡(luò)間的排序匹配問(wèn)題,將經(jīng)典的基于列的學(xué)習(xí)轉(zhuǎn)換成排序?qū)W習(xí)算法并致力于解決它;在不同度量學(xué)習(xí)任務(wù)上測(cè)試該方法,均可極大地提高學(xué)生網(wǎng)絡(luò)的性能。另外,與目前的方法融合后可得到更好的遷移性能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“機(jī)電號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of JDZJ Hao, which is a social media platform and only provides information storage services.

/企業(yè)主營(yíng)產(chǎn)品/
/閱讀下一篇/

循環(huán)水過(guò)濾器性能優(yōu)勢(shì)

相關(guān)推薦
熱點(diǎn)推薦
濰柴動(dòng)力舉辦第二屆“全球服務(wù)技能大賽”

濰柴動(dòng)力舉辦第二屆“全球服務(wù)技能大賽”

濰柴控股集團(tuán)有限公司
2025/11/29 0:24:16
中國(guó)智造標(biāo)桿!濰柴入選首批領(lǐng)航級(jí)智能工廠

中國(guó)智造標(biāo)桿!濰柴入選首批領(lǐng)航級(jí)智能工廠

濰柴控股集團(tuán)有限公司
2025/11/29 0:24:10
DLTZ-V 周波控制器的閉環(huán)反饋系統(tǒng)主要作用是什么?WVD

DLTZ-V 周波控制器的閉環(huán)反饋系統(tǒng)主要作用是什么?WVD

湖北物位帝智能裝備有限公司
2025/11/28 10:33:54
ZB-120 如何判斷周波控制器的保護(hù)功能是否正常?WVD

ZB-120 如何判斷周波控制器的保護(hù)功能是否正常?WVD

湖北物位帝智能裝備有限公司
2025/11/28 10:32:40
ZAC10  如何選擇適合特定應(yīng)用的周波控制器?WVD

ZAC10 如何選擇適合特定應(yīng)用的周波控制器?WVD

湖北物位帝智能裝備有限公司
2025/11/28 10:30:11
公司召開(kāi)2026年計(jì)劃工作準(zhǔn)備會(huì)

公司召開(kāi)2026年計(jì)劃工作準(zhǔn)備會(huì)

北京電力設(shè)備總廠
2025/11/28 10:00:31
一汽豐田榮獲“2025責(zé)任鯨牛獎(jiǎng)——責(zé)任產(chǎn)品獎(jiǎng)”

一汽豐田榮獲“2025責(zé)任鯨牛獎(jiǎng)——責(zé)任產(chǎn)品獎(jiǎng)”

中國(guó)一汽
2025/11/28 9:00:39
海林公司開(kāi)展“DeepSeek賦能高效辦公”專題培訓(xùn)

海林公司開(kāi)展“DeepSeek賦能高效辦公”專題培訓(xùn)

海林中科
2025/11/28 0:37:57
【黨建動(dòng)態(tài)】第十二次集體學(xué)習(xí):學(xué)深悟透四中全會(huì)精神 引領(lǐng)企業(yè)改革創(chuàng)新發(fā)展

【黨建動(dòng)態(tài)】第十二次集體學(xué)習(xí):學(xué)深悟透四中全會(huì)精神 引領(lǐng)企業(yè)改革創(chuàng)新發(fā)展

秦川機(jī)床
2025/11/28 0:35:06
【要聞】秦川集團(tuán)舉行學(xué)習(xí)貫徹黨的二十屆四中全會(huì)精神宣講會(huì)

【要聞】秦川集團(tuán)舉行學(xué)習(xí)貫徹黨的二十屆四中全會(huì)精神宣講會(huì)

秦川機(jī)床
2025/11/28 0:34:49
【媒體聚焦】綠色領(lǐng)航、數(shù)智賦能、匠心筑夢(mèng)!沈鼓多維實(shí)力獲權(quán)威媒體密集點(diǎn)贊

【媒體聚焦】綠色領(lǐng)航、數(shù)智賦能、匠心筑夢(mèng)!沈鼓多維實(shí)力獲權(quán)威媒體密集點(diǎn)贊

沈鼓集團(tuán)
2025/11/28 0:33:55
【榮譽(yù)時(shí)刻】全國(guó)僅30家,沈鼓獲評(píng)!

【榮譽(yù)時(shí)刻】全國(guó)僅30家,沈鼓獲評(píng)!

沈鼓集團(tuán)
2025/11/28 0:33:46
領(lǐng)航!中聯(lián)重科鑄就國(guó)家智造新標(biāo)桿

領(lǐng)航!中聯(lián)重科鑄就國(guó)家智造新標(biāo)桿

中聯(lián)重科
2025/11/28 0:30:28
上海電氣與浙能集團(tuán)深化能源領(lǐng)域全方位合作

上海電氣與浙能集團(tuán)深化能源領(lǐng)域全方位合作

上海電氣
2025/11/28 0:29:45
上海電氣與榮盛集團(tuán)共商產(chǎn)業(yè)協(xié)同與創(chuàng)新發(fā)展

上海電氣與榮盛集團(tuán)共商產(chǎn)業(yè)協(xié)同與創(chuàng)新發(fā)展

上海電氣
2025/11/28 0:29:43
160094文章數(shù) 1828關(guān)注度
往期回顧 全部

工控相關(guān)熱點(diǎn)

中科米堆CASAIM激光三維掃描儀測(cè)量法蘭盤(pán)外觀尺寸

工控相關(guān)推薦

為什么電能表中的初級(jí)變壓器保護(hù)會(huì)用到PTC熱敏電阻?

頭條要聞

XDG1000 電渦流傳感器的響應(yīng)速度由什么決定?WVD

工控要聞

CWY-DO-811800 電渦流傳感器的“品質(zhì)因數(shù)(Q 值)”有何意義?WVD

工控資訊

CWY-DO-811400 什么是電渦流傳感器的 “故障覆蓋率”?WVD

往期工控要聞

英威騰攜工業(yè)自動(dòng)化新品重磅亮相SPS德國(guó)工業(yè)自動(dòng)化展