計算機視覺(CV)和自然語(yu)(yu)言(yan)處理(NLP)早先(xian)是兩個較(jiao)為獨立的(de)研(yan)究(jiu)(jiu)領(ling)域(yu)。CV 重點關注如何用(yong)計算機代(dai)替人眼對目標完成識(shi)別、跟蹤(zong)、測(ce)量等任(ren)務(wu),對圖像進行處理;NLP 則研(yan)究(jiu)(jiu)計算機如何處理、運用(yong)自然語(yu)(yu)言(yan),包括語(yu)(yu)言(yan)生(sheng)成、問(wen)答(da)、對話等任(ren)務(wu)。近年來,以深(shen)度神經網絡為代(dai)表的(de)機器學習和模式識(shi)別技(ji)術被廣泛應用(yong)于 CV 和 NLP 領(ling)域(yu),取得了目前最先(xian)進的(de)效果(guo)。
近年來,研究(jiu)者們試圖將動(dong)作控制也引入(ru)(ru)到「視(shi)覺-語言(yan)」任務(wu)(wu)的框(kuang)架中。吳琦將此(ci)類(lei)任務(wu)(wu)命(ming)名為 V3A(Vision, Ask, Answer, Act),在(zai)給定視(shi)覺輸(shu)入(ru)(ru)后,我們希(xi)望機器能夠(gou)提出(chu)問題(ti)、回答問題(ti)、并通(tong)過和人以及(ji)機器之間的語言(yan)交(jiao)流執行某些動(dong)作。
例(li)如,「Vision+Ask」的任(ren)務包含視覺問題生(sheng)成、根(gen)據問題生(sheng)成查詢、圖像描述等;「Vision+Answer」的任(ren)務包含視覺問答、視覺對(dui)話(hua)等;「Vision+Act」的任(ren)務包含指稱(cheng)表(biao)達(da)、視覺對(dui)齊(visual grounding)、語言引(yin)導的視覺導航(hang)、具身視覺問答、具身指稱(cheng)表(biao)達(da)等。
機器人公司 機器人應用 智能醫療 物聯網 機器人排名 機器人企業 教育機器人 機器人開發 獨角獸 消毒機器人品牌 消毒機器人 |