用(yong)起來(lai)(lai)很方便,但你可能不知道的是,這簡(jian)單的搜索動作背(bei)后,卻(que)是復雜的計算機視覺技術在提供支持,甚(shen)至用(yong)到了(le)圖(tu)像內容、文本和高(gao)層(ceng)語義屬(shu)性等多個模態下的信(xin)息融合,來(lai)(lai)實現精(jing)準的以圖(tu)搜圖(tu)。
當(dang)然(ran),拍照(zhao)購只是(shi)京東電(dian)商的(de)眾多應用(yong)之一,跨(kua)模(mo)態(tai)技術(shu)應用(yong)還有很多,比如推薦和信息流(liu)廣告,內容審核(he)也(ye)可以結合海(hai)量的(de)商品(pin)圖(tu)像與對(dui)應的(de)商品(pin)語(yu)義屬(shu)性(xing),學習圖(tu)像語(yu)義特征表達。另外,我們(men)在(zai)使用(yong)京東 App 時可能(neng)(neng)都有過被智能(neng)(neng)客服(fu)接(jie)待(dai)的(de)經歷(li),這背后的(de)技術(shu),就是(shi)在(zai)任務驅動(dong)型的(de)多輪(lun)對(dui)話中(zhong)融入(ru)視覺(jue)到(dao)語(yu)言(yan)的(de)跨(kua)模(mo)態(tai)轉換技術(shu),讓智能(neng)(neng)客服(fu)可以自動(dong)地對(dui)用(yong)戶上(shang)傳的(de)圖(tu)片或(huo)視頻進行自動(dong)應答。
在(zai)(zai)物(wu)流(liu)場景,京東也成功地將視頻分析技(ji)術(shu)應用于物(wu)流(liu)園區作(zuo)業(ye)人(ren)(ren)員(yuan)行為規范管理中,特(te)(te)別是針對監控視頻的站點(dian)環境、攝像(xiang)(xiang)頭角度(du)和成像(xiang)(xiang)條(tiao)件差異性較大等難點(dian),京東采用了自研的基于局部(bu)——全局傳(chuan)播網絡的通用視頻特(te)(te)征以及高效視頻事件時(shi)(shi)序檢(jian)測框架,并融入了跨域學習技(ji)術(shu),實(shi)(shi)現了同時(shi)(shi)在(zai)(zai)幾百個(ge)不同的站點(dian)中全天候的作(zuo)業(ye)人(ren)(ren)員(yuan)操作(zuo)行為實(shi)(shi)時(shi)(shi)檢(jian)測,有(you)效地管理了物(wu)流(liu)作(zuo)業(ye)人(ren)(ren)員(yuan)在(zai)(zai)各個(ge)站點(dian)的工作(zuo)規范。
可能會有(you)人好奇(qi),這背后的(de)(de)多(duo)模(mo)態技(ji)術在京東電商和物流場(chang)景中具體是如(ru)何(he)實現(xian)的(de)(de),多(duo)模(mo)態技(ji)術在電商和物流中還有(you)哪些(xie)熱門的(de)(de)落地應用,多(duo)模(mo)態技(ji)術本(ben)身當前(qian)發展到(dao)哪一步了,目前(qian)發展遇到(dao)了哪些(xie)瓶頸,未來又將向哪些(xie)方向發展,等等。
帶著這些問題,CSDN 邀請到了京(jing)東 AI 研究院算法科學(xue)家(jia)姚霆博(bo)士,來為我們答疑解惑。
師從(cong)多媒體領域領軍人物Chong-Wah Ngo
姚霆本科(ke)和(he)碩(shuo)士(shi)畢(bi)業于中(zhong)國科(ke)學技術大學,博(bo)士(shi)就讀于香港城市大學,師從 ACM 杰出(chu)科(ke)學家(jia),也是(shi)多媒體領域的領軍(jun)人物之(zhi)一 Chong-Wah Ngo 教授。博(bo)士(shi)畢(bi)業后,他加入(ru)微軟亞洲研(yan)(yan)究院(yuan)任職(zhi)研(yan)(yan)究員,主(zhu)研(yan)(yan)計算機視(shi)覺(jue)(jue)。2018 年 6 月,姚霆加入(ru)京東 AI 研(yan)(yan)究院(yuan),擔任算法科(ke)學家(jia),負責(ze)領導京東視(shi)覺(jue)(jue)與多媒體實驗室(shi)的視(shi)覺(jue)(jue)內(nei)(nei)(nei)容分析團隊(dui),研(yan)(yan)究方向(xiang)主(zhu)要關注視(shi)頻(pin)內(nei)(nei)(nei)容理解、視(shi)覺(jue)(jue)與語言,以及大規模(mo)多媒體內(nei)(nei)(nei)容搜索(suo)。
姚霆(ting)在 CVPR/ICCV/ECCV/AAAI/SIGIR/ACM MM/TIP/TMM 等(deng)頂級會議/期刊上已(yi)發表論文 50 余篇(引用率(lv) 3600 余次),現(xian)任(ren)多媒體(ti)領(ling)域(yu)(yu)頂級學術期刊 IEEE Transactions on Multimedia 期刊編(bian)委。值得一提的(de)是(shi)(shi),姚霆(ting)還(huan)是(shi)(shi) P3D ResNet(視(shi)頻特征學習(xi))、LSTM-A(圖像語義(yi)屬性)、GCN-LSTM(圖像物體(ti)關(guan)系)、HIP(圖像分(fen)層解(jie)析)、X-LAN(高階(jie)注意力機(ji)制) 的(de)作(zuo)者(zhe)和計算(suan)機(ji)視(shi)覺領(ling)域(yu)(yu)重要數據集(ji)MSR-VTT(視(shi)頻描述生成) 的(de)創建人,曾帶領(ling)團(tuan)隊獲得多項(xiang)視(shi)頻內容(rong)理解(jie)和跨域(yu)(yu)學習(xi)競(jing)賽冠軍,是(shi)(shi)當之無愧的(de)學術帶頭(tou)人。
實(shi)際上(shang),姚霆不僅在(zai)學術(shu)上(shang)成果頗豐(feng),在(zai)京東也(ye)有更多機會將實(shi)驗(yan)室的(de)研(yan)究成果落地。
在這(zhe)里,AI 研究院計算機視(shi)(shi)(shi)覺(jue)和多媒(mei)體實驗(yan)室主要有 4 個(ge)研究方向(xiang):人(ren)臉計算、人(ren)體分(fen)析、圖像理解和視(shi)(shi)(shi)頻(pin)(pin)分(fen)析,而姚霆所帶領的視(shi)(shi)(shi)覺(jue)內(nei)容分(fen)析團隊主要關注兩個(ge)方向(xiang),即視(shi)(shi)(shi)頻(pin)(pin)內(nei)容理解和視(shi)(shi)(shi)覺(jue)與(yu)語(yu)言。前者包括(kuo)從底層的針對視(shi)(shi)(shi)頻(pin)(pin)理解的神經(jing)網(wang)絡設(she)計,視(shi)(shi)(shi)頻(pin)(pin)特(te)征(zheng)(zheng)(zheng)表達學習,到視(shi)(shi)(shi)頻(pin)(pin)動作/事件識別(bie),動作定(ding)位和檢測,視(shi)(shi)(shi)頻(pin)(pin)語(yu)義分(fen)割,視(shi)(shi)(shi)頻(pin)(pin)描(miao)述(shu)生成等(deng)全棧式的分(fen)析維度,后者則(ze)集中在圖像/視(shi)(shi)(shi)頻(pin)(pin)的語(yu)義特(te)征(zheng)(zheng)(zheng)學習,視(shi)(shi)(shi)覺(jue)與(yu)語(yu)言的特(te)征(zheng)(zheng)(zheng)交互(hu),以及跨模態的預訓練(lian)課題(ti)。
以(yi)學(xue)術(shu)研究帶(dai)動產業落(luo)地,正(zheng)是姚霆(ting)所帶(dai)領(ling)的(de)(de)團隊要做的(de)(de)事,在(zai)多模態技術(shu)研究上(shang),這支團隊一(yi)直(zhi)嘗(chang)試(shi)多模態領(ling)域有所突破,比如近(jin)期該(gai)實(shi)驗(yan)室在(zai)視覺與(yu)語言(yan)方向提出了一(yi)個全(quan)新(xin)的(de)(de)高(gao)(gao)(gao)階(jie)注(zhu)意力機制(X-linear Attention Block),首次將其融入至(zhi)圖像描述生成(cheng)任務(wu)中(zhong),主(zhu)要的(de)(de)技術(shu)創新(xin)是打破了傳統注(zhu)意力機制中(zhong)一(yi)階(jie)的(de)(de)特征(zheng)交互限制,通過(guo)所設計的(de)(de)高(gao)(gao)(gao)階(jie)注(zhu)意力機制可以(yi)靈活地捕捉(zhuo)不同模態間高(gao)(gao)(gao)階(jie)乃至(zhi)無窮階(jie)的(de)(de)特征(zheng)交互,大大提升了視覺到語言(yan)的(de)(de)跨模態轉換性能。這個注(zhu)意力機制在(zai) COCO 在(zai)線測試(shi)集上(shang)達到世(shi)界領(ling)先的(de)(de)水(shui)平,并被(bei) CVPR 2020 接收。
在(zai)(zai)視(shi)頻(pin)內容(rong)理解(jie)課題上(shang),實(shi)驗室(shi)在(zai)(zai) 2019 年提(ti)出了(le)局(ju)部——全(quan)(quan)局(ju)傳(chuan)播(LGD)網(wang)絡(luo)。這種(zhong)全(quan)(quan)新(xin)的(de)(de)(de)神經網(wang)絡(luo)結構(gou)(gou)設(she)計另辟蹊徑地(di)(di)(di)在(zai)(zai)傳(chuan)統(tong)三維卷積網(wang)絡(luo)基礎上(shang)引(yin)入了(le)對(dui)全(quan)(quan)局(ju)信息的(de)(de)(de)獨立建(jian)模,提(ti)升了(le)視(shi)頻(pin)基礎特征的(de)(de)(de)描述能力(li)。此外,不同于(yu)(yu)現有的(de)(de)(de)由(you)人工設(she)定的(de)(de)(de)視(shi)頻(pin)網(wang)絡(luo)結構(gou)(gou),實(shi)驗室(shi)還創新(xin)性(xing)地(di)(di)(di)提(ti)出了(le)基于(yu)(yu)可微分(fen)結構(gou)(gou)搜(sou)索(suo)的(de)(de)(de)視(shi)頻(pin)網(wang)絡(luo)結構(gou)(gou)自(zi)動(dong)搜(sou)索(suo)方法(SDAS),從而在(zai)(zai)視(shi)頻(pin)數據上(shang)讓機器自(zi)動(dong)地(di)(di)(di)學(xue)習(xi)和設(she)計針對(dui)視(shi)頻(pin)內容(rong)理解(jie)的(de)(de)(de)網(wang)絡(luo)結構(gou)(gou),同時也可以在(zai)(zai)搜(sou)索(suo)過程(cheng)中加入對(dui)于(yu)(yu)運行效率的(de)(de)(de)約(yue)束,以定制化地(di)(di)(di)搜(sou)索(suo)最優(you)的(de)(de)(de)網(wang)絡(luo)結構(gou)(gou)。
多(duo)模(mo)態表(biao)示(shi)學習、模(mo)態轉化等“老大難”問題怎么解決(jue)?
保持技(ji)術創(chuang)新的(de)過(guo)(guo)程(cheng)中,姚(yao)霆團隊很清楚地意識到,多(duo)模(mo)(mo)態(tai)在技(ji)術層面一(yi)定繞(rao)不過(guo)(guo)一(yi)些難以解決的(de)“老大難”問題,比如多(duo)模(mo)(mo)態(tai)表示(shi)學(xue)(xue)習(xi)、模(mo)(mo)態(tai)轉(zhuan)化、多(duo)模(mo)(mo)態(tai)融合、跨(kua)模(mo)(mo)態(tai)分析、跨(kua)域學(xue)(xue)習(xi),就是幾個(ge)典型的(de)挑戰。針對這些問題,京東其實(shi)提(ti)出了一(yi)些有(you)效的(de)方法(fa),也(ye)許(xu)對相關領(ling)域的(de)研究人員和學(xue)(xue)習(xi)者(zhe)有(you)一(yi)定借鑒意義。
在(zai)多模(mo)態(tai)表(biao)示和(he)跨模(mo)態(tai)轉化(hua)方(fang)向,姚霆以視覺和(he)語(yu)(yu)(yu)言方(fang)面舉(ju)例,2017 年在(zai)圖像(xiang)特(te)征表(biao)達(da)方(fang)面融入了(le)高層(ceng)語(yu)(yu)(yu)義(yi)(yi)(yi)特(te)征,以增強(qiang)所(suo)生成(cheng)語(yu)(yu)(yu)言描述和(he)圖像(xiang)的(de)(de)(de)(de)(de)語(yu)(yu)(yu)義(yi)(yi)(yi)一致性;2018 年則更進(jin)(jin)一步挖(wa)掘了(le)圖像(xiang)中物(wu)(wu)(wu)體(ti)(ti)和(he)物(wu)(wu)(wu)體(ti)(ti)間(jian)的(de)(de)(de)(de)(de)語(yu)(yu)(yu)義(yi)(yi)(yi)空(kong)間(jian)關系,構(gou)(gou)建出物(wu)(wu)(wu)體(ti)(ti)間(jian)語(yu)(yu)(yu)義(yi)(yi)(yi)和(he)空(kong)間(jian)的(de)(de)(de)(de)(de)關系圖,從而(er)促進(jin)(jin)對圖像(xiang)內(nei)容的(de)(de)(de)(de)(de)深(shen)層(ceng)次(ci)理解。然而(er),盡管物(wu)(wu)(wu)體(ti)(ti)間(jian)關系圖有(you)效地(di)引入了(le)物(wu)(wu)(wu)體(ti)(ti)間(jian)關系的(de)(de)(de)(de)(de)語(yu)(yu)(yu)義(yi)(yi)(yi)信息,但依(yi)然無法(fa)充分(fen)表(biao)達(da)整(zheng)個圖像(xiang)所(suo)包含的(de)(de)(de)(de)(de)豐富語(yu)(yu)(yu)義(yi)(yi)(yi),所(suo)以在(zai) 2019 年,京東(dong)又提出了(le)一種(zhong)多層(ceng)次(ci)的(de)(de)(de)(de)(de)樹形(xing)語(yu)(yu)(yu)義(yi)(yi)(yi)結構(gou)(gou),它囊括(kuo)了(le)從語(yu)(yu)(yu)義(yi)(yi)(yi)分(fen)割后(hou)的(de)(de)(de)(de)(de)物(wu)(wu)(wu)體(ti)(ti)實例到檢測后(hou)的(de)(de)(de)(de)(de)物(wu)(wu)(wu)體(ti)(ti)區(qu)域再到整(zheng)個圖像(xiang)的(de)(de)(de)(de)(de)不(bu)同(tong)層(ceng)級之間(jian)的(de)(de)(de)(de)(de)語(yu)(yu)(yu)義(yi)(yi)(yi)信息。通(tong)過這樣(yang)一種(zhong)樹形(xing)結構(gou)(gou),可(ke)以有(you)效地(di)對物(wu)(wu)(wu)體(ti)(ti)不(bu)同(tong)層(ceng)次(ci)間(jian)語(yu)(yu)(yu)義(yi)(yi)(yi)關聯(lian)性進(jin)(jin)行編碼,從而(er)最終生成(cheng)更為精準的(de)(de)(de)(de)(de)描述文本(ben)。
這(zhe)一(yi)系(xi)列(lie)工(gong)作的(de)(de)(de)(de)研究脈絡(luo)(luo)基(ji)本(ben)都是圍繞著在(zai)跨模態轉化(hua)過程中(zhong)不斷強調對視覺內容(rong)的(de)(de)(de)(de)理解,而語(yu)言建(jian)模部分(fen)都是采用通用的(de)(de)(de)(de) RNN 或 Transformer 類似的(de)(de)(de)(de)結構來實現。不同于這(zhe)一(yi)研究脈絡(luo)(luo),在(zai)今年京東最新的(de)(de)(de)(de)工(gong)作中(zhong),他們在(zai)上文中(zhong)提到(dao)的(de)(de)(de)(de)高(gao)階注(zhu)意力機制則(ze)逐漸聚(ju)焦于視覺內容(rong)和(he)語(yu)言建(jian)模這(zhe)兩(liang)者(zhe)之間(jian)的(de)(de)(de)(de)特(te)征交互(hu),希望可(ke)以通過不同模態間(jian)基(ji)于高(gao)階的(de)(de)(de)(de)信息交互(hu),讓(rang)兩(liang)者(zhe)成(cheng)為(wei)相互(hu)促進的(de)(de)(de)(de)整體。
跨域(yu)(yu)學(xue)習也是京東(dong)另一(yi)個持續關注的(de)(de)(de)(de)研究(jiu)方向。姚霆解釋到,因為(wei)跨域(yu)(yu)學(xue)習可(ke)以(yi)(yi)很好地(di)提升模型(xing)在(zai)(zai)不同場景下(xia)(xia)的(de)(de)(de)(de)泛化(hua)能力,并且無需更多目標(biao)場景下(xia)(xia)的(de)(de)(de)(de)人工(gong)標(biao)注就(jiu)能實現(xian)模型(xing)在(zai)(zai)不同域(yu)(yu)下(xia)(xia)的(de)(de)(de)(de)遷(qian)移,這與(yu)京東(dong)在(zai)(zai)各(ge)種實際場景中(zhong)快速進行模型(xing)落(luo)地(di)的(de)(de)(de)(de)需求(qiu)吻合(he)。所以(yi)(yi),針對跨域(yu)(yu)學(xue)習,京東(dong)在(zai)(zai)廣度(du)和深(shen)度(du)上都有一(yi)些研究(jiu)。
首先在廣(guang)度上,京東研究(jiu)了如何在圖(tu)像(xiang)整(zheng)體特征(zheng)級(ji)(ji)別(bie)、局部區域(yu)級(ji)(ji)別(bie)和像(xiang)素(su)級(ji)(ji)別(bie)進(jin)(jin)行跨域(yu)學(xue)(xue)習,使得(de)這些跨域(yu)學(xue)(xue)習技術可以無縫地(di)適用于圖(tu)像(xiang)識別(bie)、物體檢測(ce)和語義分割(ge)這幾大任務,同時脫離開特征(zheng)級(ji)(ji)別(bie)的跨域(yu)遷(qian)移,還結(jie)合生成式對抗(kang)網絡,直接在原(yuan)始圖(tu)像(xiang)、視頻(pin)上進(jin)(jin)行無監督(du)跨域(yu)轉換。
在深度上,實(shi)驗室(shi)也對跨域(yu)學(xue)(xue)習(xi)(xi)框架進(jin)行了(le)一(yi)些變(bian)革與創(chuang)新,比如(ru) 2019 年提出了(le)一(yi)個基(ji)于(yu)原型網絡的(de)(de)跨域(yu)學(xue)(xue)習(xi)(xi)框架(TPN,Transferrable Prototypical Networks),它(ta)可以將特征學(xue)(xue)習(xi)(xi)和目(mu)標任務的(de)(de)學(xue)(xue)習(xi)(xi)融為一(yi)體,有效地提升跨域(yu)學(xue)(xue)習(xi)(xi)的(de)(de)性能,此外,實(shi)驗室(shi)還從理論上證(zheng)明了(le)自(zi)主(zhu)學(xue)(xue)習(xi)(xi)(self-learning)對于(yu)模型跨域(yu)轉換的(de)(de)促進(jin)作用(yong)(yong)。在今年的(de)(de) CVPR 上,實(shi)驗室(shi)利用(yong)(yong)無監督聚類技術深挖目(mu)標域(yu)的(de)(de)內在數據結構,并利用(yong)(yong)這一(yi)信息更(geng)好地指導跨域(yu)學(xue)(xue)習(xi)(xi),在主(zhu)流的(de)(de)數據集(ji) Office 和 VisDA的(de)(de)封閉集(ji)和開放集(ji)上均取得(de)了(le) SOTA 效果,其中在 VisDA 2017 數據集(ji)上達到(dao) 87.2% 的(de)(de)準(zhun)確(que)率(lv)。。
多模態熱門應用之視頻分析
再(zai)進(jin)一步聊到(dao)多模態(tai)技術在應用上的(de)進(jin)展,姚(yao)霆提到(dao)了(le)視(shi)頻分(fen)析(xi)技術實用性非常(chang)強(qiang)的(de)熱(re)門(men)研究方(fang)向(xiang)。京東(dong)當然也洞(dong)察到(dao)這個有(you)潛力的(de)方(fang)向(xiang),在視(shi)頻分(fen)析(xi)技術的(de)各大方(fang)向(xiang)均有(you)自(zi)研的(de)獨創性工作。
其中(zhong)最基(ji)本(ben)是視(shi)(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)(pin)特征表達(da)的(de)(de)學習,目(mu)標(biao)在于從原始視(shi)(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)(pin)數據中(zhong)學習包含高層語(yu)義信息的(de)(de)特征向量。為此,姚(yao)霆團隊設(she)計了(le)(le)幾種獨(du)特的(de)(de)三(san)維(wei)卷積(ji)網(wang)(wang)絡(luo)模(mo)型,比(bi)如偽三(san)維(wei)卷積(ji)神經網(wang)(wang)絡(luo)和(he)局部——全局傳播網(wang)(wang)絡(luo)。在這(zhe)些(xie)特征的(de)(de)基(ji)礎上,實驗室還搭(da)建了(le)(le)包括視(shi)(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)(pin)事件(jian)檢測(ce)、視(shi)(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)(pin)語(yu)義分割和(he)視(shi)(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)(pin)動作檢測(ce)的(de)(de)視(shi)(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)(pin)理解(jie)系統,實現對視(shi)(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)(pin)內容的(de)(de)全方位分析(xi)(xi)。與此同時(shi)(shi),在每一個視(shi)(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)(pin)分析(xi)(xi)的(de)(de)具體應用(yong)中(zhong),實驗室也都沉淀(dian)了(le)(le)相應的(de)(de)技(ji)術創新,比(bi)如針對視(shi)(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)(pin)事件(jian)檢測(ce)提(ti)出(chu)了(le)(le)使用(yong)時(shi)(shi)域高斯函數對事件(jian)發生時(shi)(shi)間段(duan)進(jin)行預測(ce)的(de)(de)方法(fa),同時(shi)(shi)也設(she)計了(le)(le)基(ji)于網(wang)(wang)絡(luo)結構(gou)自動搜索的(de)(de)語(yu)義分割方法(fa),用(yong)以達(da)成實時(shi)(shi)的(de)(de)視(shi)(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)(pin)語(yu)義分割;針對視(shi)(shi)(shi)(shi)頻(pin)(pin)(pin)(pin)(pin)動作檢測(ce),提(ti)出(chu)了(le)(le)同時(shi)(shi)對長(chang)短時(shi)(shi)關聯(lian)性進(jin)行建模(mo)的(de)(de)方法(fa),也獲得了(le)(le)在該領域領先的(de)(de)性能。
多模(mo)態熱(re)門應用(yong)之視(shi)頻分析之視(shi)頻內容理解
視(shi)(shi)頻(pin)內容(rong)(rong)理解同樣是一(yi)個熱門的多模態研(yan)究方向。姚(yao)霆(ting)預測,在未(wei)來,視(shi)(shi)頻(pin)內容(rong)(rong)理解有兩(liang)個較為重要的發展(zhan)趨勢,即無標注或弱(ruo)標注視(shi)(shi)頻(pin)數據的使用,以及針對視(shi)(shi)頻(pin)特質(zhi)的神(shen)經網絡(luo)設計。
首先,數(shu)據(ju)是深度(du)學(xue)習(xi)訓(xun)練(lian)的基(ji)礎,同(tong)時也(ye)是發展(zhan)視(shi)(shi)頻(pin)(pin)內容(rong)理(li)解(jie)技(ji)術的必備(bei)條件。目前視(shi)(shi)頻(pin)(pin)內容(rong)理(li)解(jie)系(xi)統(tong)的訓(xun)練(lian)通(tong)常依靠(kao)大量的人工(gong)標(biao)注視(shi)(shi)頻(pin)(pin)數(shu)據(ju),這就不可(ke)避免地需要(yao)耗費時間和人力(li)。如果(guo)可(ke)以(yi)充(chong)分利用互聯網上海(hai)量的無標(biao)注或(huo)弱標(biao)注視(shi)(shi)頻(pin)(pin)數(shu)據(ju)來進行訓(xun)練(lian),將(jiang)會突破視(shi)(shi)頻(pin)(pin)數(shu)據(ju)來源的限制(zhi),全面提升(sheng)視(shi)(shi)頻(pin)(pin)內容(rong)理(li)解(jie)的性能。因此,無監督學(xue)習(xi)、半(ban)監督學(xue)習(xi)與弱監督學(xue)習(xi)都將(jiang)成(cheng)為視(shi)(shi)頻(pin)(pin)內容(rong)理(li)解(jie)的新(xin)趨(qu)勢。
另一個(ge)方(fang)向則是針(zhen)對視(shi)(shi)頻(pin)(pin)特質的(de)神(shen)經網絡(luo)結(jie)構(gou)(gou)設計,目前視(shi)(shi)頻(pin)(pin)內(nei)容理解中所使(shi)用的(de)網絡(luo)結(jie)構(gou)(gou)通(tong)常與圖(tu)像領(ling)域(yu)的(de)網絡(luo)結(jie)構(gou)(gou)高度耦合(he),它(ta)們并(bing)不是真(zhen)正為視(shi)(shi)頻(pin)(pin)而生的(de)網絡(luo)結(jie)構(gou)(gou),缺乏對視(shi)(shi)頻(pin)(pin)數據(ju)獨(du)到且深刻的(de)見解。所以,如何(he)針(zhen)對視(shi)(shi)頻(pin)(pin)數據(ju)來設計全新一代的(de)神(shen)經網絡(luo)結(jie)構(gou)(gou),也是視(shi)(shi)頻(pin)(pin)內(nei)容理解領(ling)域(yu)一個(ge)重要的(de)發展趨(qu)勢。
針對跨模態分析(xi)領(ling)域,盡管(guan)視(shi)覺內容的(de)理解可以(yi)隨著各種高性能(neng)網絡的(de)設(she)計和深層(ceng)語義的(de)挖掘不斷(duan)升級,視(shi)覺和語言間交互(hu)的(de)方式也已經從傳(chuan)統(tong)的(de)一階注意力(li)機制演(yan)化到可捕(bu)捉高階乃至無窮階信(xin)息交互(hu)的(de)注意力(li)機制,但視(shi)覺與語言的(de)技術(shu)發展(zhan)依然逃脫不了深度學習(xi)對于訓練數據的(de)貪婪。
因此(ci)(ci),如(ru)何能在(zai)(zai)(zai)海(hai)量(liang)(liang)的(de)(de)(de)弱(ruo)監(jian)(jian)督(du)數(shu)(shu)據(ju)(ju)上(shang)學(xue)習更具泛化能力的(de)(de)(de)視(shi)覺和語(yu)(yu)言之間(jian)本質聯系,將是(shi)下一(yi)個(ge)(ge)(ge)研(yan)究(jiu)的(de)(de)(de)熱潮。而(er)一(yi)旦在(zai)(zai)(zai)這(zhe)些(xie)海(hai)量(liang)(liang)的(de)(de)(de)弱(ruo)監(jian)(jian)督(du)甚至于無監(jian)(jian)督(du)數(shu)(shu)據(ju)(ju)上(shang)通過預訓(xun)(xun)練學(xue)習到了(le)蘊含有(you)多(duo)(duo)模態間(jian)本質聯系的(de)(de)(de)模型,便可賦予它在(zai)(zai)(zai)各種視(shi)覺與語(yu)(yu)言任(ren)務(wu)上(shang)的(de)(de)(de)生命力。基于此(ci)(ci),我們(men)最(zui)近也在(zai)(zai)(zai)數(shu)(shu)以億計的(de)(de)(de)網頁上(shang)持續不(bu)斷地自(zi)動抓取視(shi)頻(pin)——語(yu)(yu)言的(de)(de)(de)多(duo)(duo)模態數(shu)(shu)據(ju)(ju),構建了(le)視(shi)頻(pin)——語(yu)(yu)言領域首(shou)個(ge)(ge)(ge)弱(ruo)監(jian)(jian)督(du)的(de)(de)(de)大規(gui)模數(shu)(shu)據(ju)(ju)集(Auto-captions on GIF dataset),并正在(zai)(zai)(zai) ACM Multimedia 2020 上(shang)舉辦跨(kua)模態預訓(xun)(xun)練的(de)(de)(de)競賽,其目的(de)(de)(de)還是(shi)希望(wang)能為跨(kua)模態預訓(xun)(xun)練技術的(de)(de)(de)未來發展準(zhun)備好一(yi)個(ge)(ge)(ge)充分(fen)與完備的(de)(de)(de)平臺。
電(dian)商、物流+多模(mo)態發(fa)展空間大,突破口(kou)在(zai)哪(na)?
盡管(guan)電(dian)(dian)商(shang)和物流業中,計算(suan)機(ji)視覺和多媒(mei)體技(ji)術已(yi)經有(you)很多落地應用(yong)了(le),比如拍照購(gou)、內(nei)容審核和物流園(yuan)區作業人(ren)員(yuan)行(xing)為(wei)規范管(guan)理等,但在姚霆看來,縱觀整個電(dian)(dian)商(shang)和物流體系(xi),依然有(you)一部(bu)分(fen)業務需(xu)要(yao)人(ren)工檢驗(yan)確認步驟,還遠遠沒有(you)達到計算(suan)機(ji)視覺和多媒(mei)體技(ji)術完全自主(zhu)的(de)(de)階段。簡言之,當(dang)前電(dian)(dian)商(shang)、物流場(chang)景與這些技(ji)術的(de)(de)結合還處于局部(bu)智能化的(de)(de)階段,整個產業鏈并沒有(you)得到顛覆(fu)性的(de)(de)革(ge)新。
“我們希(xi)望(wang),隨著整個電商平(ping)臺和(he)(he)供(gong)應(ying)(ying)(ying)鏈(lian)的(de)(de)(de)不斷數(shu)字化(hua),加上智(zhi)能配送(song)系(xi)統(tong)的(de)(de)(de)持續發展,未來的(de)(de)(de)電商、物(wu)流(liu)業務可(ke)以從計算機視覺(jue)和(he)(he)多媒體技術輔助的(de)(de)(de)方式,逐漸(jian)轉變成(cheng)為由(you)這(zhe)些技術完全(quan)(quan)主(zhu)導的(de)(de)(de)機器自(zi)助,乃至多機協同,在電商與(yu)物(wu)流(liu)的(de)(de)(de)每一個環(huan)節上都盡(jin)可(ke)能地使用(yong)智(zhi)能的(de)(de)(de)方式進行全(quan)(quan)局調度,尋求更加高效智(zhi)能的(de)(de)(de)供(gong)應(ying)(ying)(ying)鏈(lian)。這(zhe)也(ye)正是我們目(mu)前正在建設的(de)(de)(de)智(zhi)能供(gong)應(ying)(ying)(ying)鏈(lian)開放平(ping)臺的(de)(de)(de)愿景(jing),即依托人工智(zhi)能技術與(yu)供(gong)應(ying)(ying)(ying)鏈(lian)系(xi)統(tong),打造智(zhi)能供(gong)應(ying)(ying)(ying)鏈(lian)產(chan)業生(sheng)態,賦(fu)能現代供(gong)應(ying)(ying)(ying)鏈(lian)的(de)(de)(de)生(sheng)產(chan)、流(liu)通、消費三(san)大場景(jing)。”雖然電商和(he)(he)物(wu)流(liu)業中多模態技術的(de)(de)(de)應(ying)(ying)(ying)用(yong)還不夠成(cheng)熟,但姚霆(ting)十分看好這(zhe)一領域(yu)的(de)(de)(de)發展空間。
多(duo)模(mo)態(tai)(tai)(tai)(tai)技術(shu)(shu)被(bei)很多(duo)人(ren)(ren)視為(wei)(wei)(wei)未(wei)來獲得真(zhen)(zhen)正(zheng)的(de)(de)(de)(de)機(ji)器(qi)(qi)(qi)智能(neng)(neng)(neng)的(de)(de)(de)(de)途(tu)徑之一(yi)(yi)(yi)(yi),對于(yu)這一(yi)(yi)(yi)(yi)觀點,姚霆(ting)表示不能(neng)(neng)(neng)完全(quan)(quan)認(ren)同。他認(ren)為(wei)(wei)(wei),首(shou)先需要肯定的(de)(de)(de)(de)是(shi)(shi)(shi),相比于(yu)只側重(zhong)單一(yi)(yi)(yi)(yi)模(mo)態(tai)(tai)(tai)(tai)的(de)(de)(de)(de)技術(shu)(shu)(比如(ru)圖像識別、動作檢測、機(ji)器(qi)(qi)(qi)翻譯等),多(duo)模(mo)態(tai)(tai)(tai)(tai)技術(shu)(shu)一(yi)(yi)(yi)(yi)定距離真(zhen)(zhen)正(zheng)的(de)(de)(de)(de)機(ji)器(qi)(qi)(qi)智能(neng)(neng)(neng)更近一(yi)(yi)(yi)(yi)些,因為(wei)(wei)(wei)機(ji)器(qi)(qi)(qi)智能(neng)(neng)(neng)的(de)(de)(de)(de)終極目的(de)(de)(de)(de)是(shi)(shi)(shi)模(mo)擬人(ren)(ren)的(de)(de)(de)(de)智能(neng)(neng)(neng),而人(ren)(ren)之本身對于(yu)這個(ge)世(shi)界的(de)(de)(de)(de)認(ren)識一(yi)(yi)(yi)(yi)定是(shi)(shi)(shi)視聽說的(de)(de)(de)(de)結(jie)合(he),這就對應著(zhu)多(duo)模(mo)態(tai)(tai)(tai)(tai)技術(shu)(shu)的(de)(de)(de)(de)融(rong)合(he)。因此,對于(yu)機(ji)器(qi)(qi)(qi)而言(yan),只有綜合(he)來源于(yu)不同模(mo)態(tai)(tai)(tai)(tai)的(de)(de)(de)(de)知識才(cai)能(neng)(neng)(neng)對這個(ge)真(zhen)(zhen)實的(de)(de)(de)(de)世(shi)界實現全(quan)(quan)面綜合(he)的(de)(de)(de)(de)理(li)解,這也(ye)正(zheng)是(shi)(shi)(shi)達到真(zhen)(zhen)正(zheng)人(ren)(ren)類級(ji)別的(de)(de)(de)(de)智能(neng)(neng)(neng)的(de)(de)(de)(de)基石之一(yi)(yi)(yi)(yi)。但(dan)是(shi)(shi)(shi),當前的(de)(de)(de)(de)多(duo)模(mo)態(tai)(tai)(tai)(tai)技術(shu)(shu)還遠遠未(wei)達到能(neng)(neng)(neng)通向真(zhen)(zhen)正(zheng)機(ji)器(qi)(qi)(qi)智能(neng)(neng)(neng)的(de)(de)(de)(de)水平,因為(wei)(wei)(wei)它缺乏了人(ren)(ren)的(de)(de)(de)(de)智能(neng)(neng)(neng)中最為(wei)(wei)(wei)關鍵的(de)(de)(de)(de)推(tui)理(li)能(neng)(neng)(neng)力(li),這也(ye)正(zheng)是(shi)(shi)(shi)多(duo)模(mo)態(tai)(tai)(tai)(tai)技術(shu)(shu)在未(wei)來亟需突破的(de)(de)(de)(de)一(yi)(yi)(yi)(yi)個(ge)瓶頸。
多模態研(yan)究歷(li)史(shi)不長,至(zhi)今沒有顛覆性的成果出現,要(yao)想獲得(de)進一步發(fa)展(zhan),多模態技術(shu)研(yan)究將(jiang)來要(yao)對準(zhun)哪些突(tu)破口?
對此,姚霆也有自己的(de)(de)(de)(de)(de)看法,“目前大(da)(da)部(bu)分多(duo)模(mo)(mo)態技術(shu)(shu)走的(de)(de)(de)(de)(de)還是深度(du)學習(xi)中(zhong)拿(na)大(da)(da)量的(de)(de)(de)(de)(de)已標注多(duo)模(mo)(mo)態數(shu)據來喂深度(du)模(mo)(mo)型(xing)(xing)的(de)(de)(de)(de)(de)老路子,即數(shu)據驅(qu)動(dong)模(mo)(mo)型(xing)(xing)的(de)(de)(de)(de)(de)感知(zhi)計(ji)算,這就導致訓練(lian)得到的(de)(de)(de)(de)(de)多(duo)模(mo)(mo)態模(mo)(mo)型(xing)(xing)不具備人腦一樣的(de)(de)(de)(de)(de)推(tui)理(li)能(neng)力(li),其在真實(shi)場(chang)景下(xia)的(de)(de)(de)(de)(de)泛化能(neng)力(li)也大(da)(da)大(da)(da)受限(xian)。如果(guo)能(neng)在現有的(de)(de)(de)(de)(de)多(duo)模(mo)(mo)態技術(shu)(shu)中(zhong)融入專家、常識知(zhi)識(例如結合知(zhi)識圖(tu)譜),則能(neng)利用數(shu)據與知(zhi)識的(de)(de)(de)(de)(de)聯合驅(qu)動(dong)讓多(duo)模(mo)(mo)態技術(shu)(shu)更為(wei)“智(zhi)能(neng)”。同時,也可以在多(duo)模(mo)(mo)態模(mo)(mo)型(xing)(xing)訓練(lian)的(de)(de)(de)(de)(de)過程(cheng)中(zhong)引入多(duo)種自監(jian)督的(de)(de)(de)(de)(de)推(tui)理(li)型(xing)(xing)任務,“強迫”多(duo)模(mo)(mo)態模(mo)(mo)型(xing)(xing)進(jin)行推(tui)理(li)和思考,這也能(neng)在一定程(cheng)度(du)上讓機器去(qu)慢(man)(man)慢(man)(man)學會推(tui)理(li)。”
此外,姚霆還指(zhi)出,當前的(de)多(duo)模(mo)(mo)態技(ji)術還是屬于狹隘(ai)的(de)單任務(wu)學(xue)(xue)習(xi),整個訓(xun)練和(he)測試的(de)過(guo)程(cheng)都是在(zai)封閉和(he)靜態的(de)環境下進行(xing),這(zhe)就和(he)真實(shi)世界中(zhong)開(kai)放(fang)動態的(de)應用場景存在(zai)一定的(de)差異性。為了彌(mi)補(bu)這(zhe)一差異,我們可(ke)以在(zai)訓(xun)練過(guo)程(cheng)不(bu)斷結(jie)合真實(shi)世界數據的(de)回流來(lai)持續(xu)升級多(duo)媒體模(mo)(mo)型,甚至于可(ke)以利用元(yuan)學(xue)(xue)習(xi)的(de)方(fang)式(shi)來(lai)讓模(mo)(mo)型自己學(xue)(xue)會(hui)如何(he)認知新的(de)多(duo)模(mo)(mo)態知識,實(shi)現適用于開(kai)放(fang)動態場景并具備終生(sheng)學(xue)(xue)習(xi)能力的(de)多(duo)模(mo)(mo)態模(mo)(mo)型。
機器人公司 機器人應用 智能醫療 物聯網 機器人排名 機器人企業 教育機器人 機器人開發 獨角獸 消毒機器人品牌 消毒機器人 |