從斯坦福大學的(de)(de) VIMA 機器(qi)人智能體,到谷歌 DeepMind 推出首個控制機器(qi)人的(de)(de)視覺 - 語言 - 動作(zuo)(VLA)的(de)(de)模型(xing) RT-2,大模型(xing)加持(chi)的(de)(de)機器(qi)人研究備受(shou)關注。
當前,自監督和語(yu)言監督的(de)(de)圖(tu)像(xiang)模型已(yi)經(jing)包含豐富的(de)(de)世界(jie)知(zhi)識(shi),這對(dui)于泛化來(lai)說(shuo)非常重要(yao),但圖(tu)像(xiang)特征是二維的(de)(de)。我們知(zhi)道,機(ji)器人任務通常需要(yao)對(dui)現(xian)實世界(jie)中三(san)維物體的(de)(de)幾何形狀有所了解。
基(ji)于此,來自(zi) MIT CSAIL 和(he) IAIFI 的(de)研究者利用蒸餾特(te)征(zheng)場(Distilled Feature Field,DFF),將準確(que)的(de) 3D 幾何圖形(xing)與(yu)來自(zi) 2D 基(ji)礎模(mo)型(xing)的(de)豐富(fu)語義結合(he)起來,讓(rang)機(ji)器人能夠利用 2D 基(ji)礎模(mo)型(xing)中豐富(fu)的(de)視(shi)覺和(he)語言先驗,完成(cheng)語言指導的(de)操作(zuo)。
論文地址://arxiv.org/abs/2308.07931
具(ju)體(ti)(ti)來(lai)說,該研究提出(chu)了一種用于 6-DOF 抓取(qu)和放置的(de)(de)(de)小樣本學習方法,并(bing)利用強大的(de)(de)(de)空間和語義先驗泛(fan)化到未(wei)見(jian)過物體(ti)(ti)上(shang)。使用從(cong)視覺 - 語言模型 CLIP 中(zhong)提取(qu)的(de)(de)(de)特(te)征(zheng),該研究提出(chu)了一種通過開放性的(de)(de)(de)自然語言指(zhi)令對新(xin)物體(ti)(ti)進行操(cao)作(zuo),并(bing)展示了這(zhe)種方法泛(fan)化到未(wei)見(jian)過的(de)(de)(de)表達和新(xin)型物體(ti)(ti)的(de)(de)(de)能力。
研究團隊用(yong)一個(ge)講(jiang)解視頻詳細介紹了 F3RM 方法的技術原理(li):
智能服務機器人 導覽機器人 |