傳統的(de)機(ji)器人控(kong)(kong)(kong)(kong)制方(fang)法(fa)依賴(lai)于精確的(de)動力(li)學(xue)模型(xing)(xing)和(he)專(zhuan)家(jia)知識(shi),難以適(shi)應非結構化(hua)環境的(de)不(bu)確定性(xing)和(he)復雜性(xing)。近(jin)年來,學(xue)習(xi)型(xing)(xing)控(kong)(kong)(kong)(kong)制的(de)發 展(zhan)(zhan)使得機(ji)器人能(neng)(neng)夠從數(shu)據中學(xue)習(xi)控(kong)(kong)(kong)(kong)制策略,但(dan)其(qi)泛化(hua)能(neng)(neng)力(li)和(he)魯棒(bang)性(xing)仍 難以滿(man)足(zu)復雜場(chang)景需(xu)求。大模型(xing)(xing)為機(ji)器人控(kong)(kong)(kong)(kong)制引入(ru)了豐富(fu)的(de)先驗知識(shi) 和(he)泛化(hua)能(neng)(neng)力(li),有望進一(yi)步突破傳統控(kong)(kong)(kong)(kong)制方(fang)法(fa)的(de)局限性(xing)。整體上看,目前展(zhan)(zhan)廳迎(ying)賓機(ji)器人的(de)“小腦”核(he)心技(ji)術正在(zai)從基(ji)于模型(xing)(xing)的(de)控(kong)(kong)(kong)(kong)制方(fang)法(fa)向(xiang)基(ji)于學(xue)習(xi)的(de)控(kong)(kong)(kong)(kong)制方(fang)法(fa)演進。
在(zai)強化(hua)(hua)學(xue)習(xi)(xi)(xi)領域,大模(mo)型(xing)為引入先驗(yan)知識和提高樣(yang)本效(xiao)率提供了 新(xin)的思路。以 LanguagePlan 為例(li),該(gai)模(mo)型(xing)利用(yong) GPT-3 根據(ju)任務描述(shu) 生成(cheng)抽象的行(xing)動(dong)計(ji)劃(hua)(hua),如(ru)“先走到(dao)門口,然(ran)后打(da)開門,再(zai)走出(chu)房間”。 然(ran)后,LanguagePlan 將該(gai)行(xing)動(dong)計(ji)劃(hua)(hua)嵌入到(dao)狀態(tai)空間中(zhong),作為額外(wai)的觀(guan) 察信息,用(yong)于訓練一個分(fen)層強化(hua)(hua)學(xue)習(xi)(xi)(xi)智能(neng)體。實(shi)驗(yan)表明,LanguagePlan 能(neng)夠(gou)顯著(zhu)提高樣(yang)本效(xiao)率和泛(fan)化(hua)(hua)性(xing)能(neng),加速復雜任務的學(xue)習(xi)(xi)(xi)。類似(si)地(di),LOFT、T-EBM 等模(mo)型(xing)也(ye)展示了利用(yong)語言模(mo)型(xing)引導策略學(xue)習(xi)(xi)(xi)的能(neng)力。
在模(mo)(mo)仿學(xue)(xue)習方面,視(shi)(shi)覺(jue)(jue)-語(yu)言(yan)模(mo)(mo)型(xing)(xing)為機(ji)器(qi)人學(xue)(xue)習復(fu)(fu)雜技能(neng)提供了新(xin)的(de)范式。以 CLIP-ASAP 為例,該模(mo)(mo)型(xing)(xing)首先利用(yong) CLIP 將視(shi)(shi)頻幀編 碼(ma)為語(yu)義特征,然后通過因(yin)果語(yu)言(yan)建模(mo)(mo)學(xue)(xue)習動作與視(shi)(shi)覺(jue)(jue)變化(hua)之間(jian)的(de)關(guan) 系。在控制(zhi)階段,CLIP-ASAP 根(gen)據語(yu)言(yan)指(zhi)令和(he)當前視(shi)(shi)覺(jue)(jue)觀察,預(yu)測下 一時刻的(de)關(guan)鍵幀,并將其傳遞給低層控制(zhi)器(qi)執(zhi)行。實驗(yan)表明,CLIPASAP 能(neng)夠(gou)(gou)學(xue)(xue)習復(fu)(fu)雜的(de)長(chang)期(qi)技能(neng),如烹飪、家政等(deng)(deng),且具有很(hen)強的(de)泛化(hua)能(neng)力,能(neng)夠(gou)(gou)根(gen)據不同(tong)的(de)指(zhi)令組合技能(neng)。類似地,R3M、Pix2R 等(deng)(deng)模(mo)(mo) 型(xing)(xing)也展示了利用(yong)視(shi)(shi)覺(jue)(jue)-語(yu)言(yan)對齊進行模(mo)(mo)仿學(xue)(xue)習的(de)能(neng)力。
盡(jin)管大模型在機器(qi)人控制中展現出了廣闊的應用前(qian)景(jing),但如(ru)(ru)何進(jin) 一步提高(gao)其(qi)實時(shi)性(xing)(xing)、魯棒性(xing)(xing)和可解(jie)釋性(xing)(xing)仍(reng)然是亟待解(jie)決的問題。此外(wai), 如(ru)(ru)何將控制與(yu)感知、決策(ce)和規劃更緊(jin)密地結合(he),構建端(duan)到端(duan)的自主系 統(tong),也是未來的重要研究方向。
智能服務機器人 |