近年來視覺(jue)語(yu)⾔基礎模型(Vision Language Models, VLMs)在多(duo)模態(tai)理(li)解和⾼層次(ci)常(chang)識推理(li)上⼤放異彩,如(ru)何將其應⽤于機器⼈以實現通(tong)⽤操(cao)作是具身智能領(ling)域(yu)的(de)⼀個核⼼問題。這⼀⽬標的(de)實現受(shou)兩⼤關鍵挑戰(zhan)制約:
1. VLM 缺(que)少精確的(de) 3D 理解(jie)能⼒:通(tong)過對⽐學習范式訓練(lian)、僅以 2D 圖(tu)像 / ⽂本作為輸⼊的(de) VLM 的(de)天(tian)然局限;
2. ⽆法輸(shu)出低層(ceng)次動作(zuo):將 VLM 在(zai)機(ji)器⼈數據上進⾏微調以(yi)得到(dao)視覺 - 語⾔ - 動作(zuo)(VLA)模型(xing)是⼀種有(you)前景的(de)解決(jue)⽅案,但⽬前仍受到(dao)數據收集(ji)成本(ben)和泛(fan)化能(neng)⼒的(de)限(xian)制。
針對(dui)(dui)上述難(nan)題,北⼤攜⼿智元(yuan)機器(qi)⼈團隊(dui)提出了 OmniManip 架構,基于以對(dui)(dui)象(xiang)為中⼼的(de) 3D 交互(hu)基元(yuan),將 VLM 的(de)高層(ceng)次推理(li)能力轉化為機器(qi)⼈的(de)低(di)層(ceng)次高精(jing)度動(dong)作(zuo)。
針對(dui)⼤模型(xing)幻覺問題和(he)真實環境操(cao)作的不確定性,OmniManip 創新性地引⼊了(le) VLM 規(gui)劃和(he)機器⼈執⾏的雙閉環系統設計,實現了(le)操(cao)作性能的顯著突破。
實驗結果(guo)表明,OmniManip 作為⼀種(zhong)(zhong)免訓練的(de)開放詞匯操(cao)作⽅法,在(zai)各種(zhong)(zhong)機器⼈操(cao)作任務中(zhong)具備強⼤的(de)零樣本(ben)泛化(hua)能⼒。
OmniManip 的關鍵設計包括:
基于 VLM 的任務(wu)解(jie)析:利⽤ VLM 強⼤的常識推理(li)能⼒,將(jiang)任務(wu)分解(jie)為多個結構化(hua)階(jie)段(duan)(Stages),每個階(jie)段(duan)明確指定(ding)了主動物體(Active)、被動物體(Passive)和(he)動作類型(Action)。
以(yi)物體(ti)為(wei)中⼼的交(jiao)互基(ji)元(yuan)作(zuo)為(wei)空(kong)間(jian)約束:通過 3D 基(ji)座(zuo)模(mo)型⽣成任務相關物體(ti)的 3D 模(mo)型和規范(fan)化(hua)空(kong)間(jian)(canonical space),使 VLM 能(neng)夠(gou)直接在該(gai)空(kong)間(jian)中采樣 3D 交(jiao)互基(ji)元(yuan),作(zuo)為(wei) Action 的空(kong)間(jian)約束,從⽽優(you)化(hua)求解出(chu) Active 物體(ti)在 Passive 物體(ti)規范(fan)坐(zuo)標系下(xia)的⽬標交(jiao)互姿態。
閉(bi)環(huan) VLM 規劃:將⽬標交互姿態下(xia)的 Active/Passive 物體(ti)渲染成圖像,由 VLM 評估與重(zhong)采樣,實現 VLM 對(dui)⾃身(shen)規劃結果的閉(bi)環(huan)調整。
閉(bi)環(huan)機器⼈執(zhi)⾏:通過物(wu)體(ti) 6D 姿(zi)態跟蹤器實(shi)(shi)時更新(xin) Active/Passive 物(wu)體(ti)的(de)位姿(zi),轉換(huan)為機械臂末端執(zhi)⾏器的(de)操作軌跡(ji),實(shi)(shi)現閉(bi)環(huan)執(zhi)⾏。
物體(ti)的(de)交(jiao)互(hu)(hu)(hu)基元通(tong)過其(qi)在標準空間(jian)中的(de)交(jiao)互(hu)(hu)(hu)點(dian)和⽅向來(lai)表征。交(jiao)互(hu)(hu)(hu)點(dian) p∈R3 表示物體(ti)上關鍵的(de)交(jiao)互(hu)(hu)(hu)位(wei)置,⽽交(jiao)互(hu)(hu)(hu)⽅向 v∈R3 代表與(yu)任務相(xiang)關的(de)主要軸。這兩(liang)者共(gong)同構成交(jiao)互(hu)(hu)(hu)基元 O={p,v},封裝了滿⾜任務約(yue)束所需(xu)的(de)基本⼏何和功能屬性。這些(xie)標準交(jiao)互(hu)(hu)(hu)基元相(xiang)對(dui)于(yu)其(qi)標準空間(jian)定義,能夠在不同場景中保持⼀致,實現(xian)更通(tong)⽤和可(ke)重⽤的(de)操作策略。
對于通⽤物(wu)體的(de)交互點(dian)提取,OmniManip 利⽤視覺語⾔模型(VLM)在原(yuan)圖(tu)(當部(bu)件(jian)可(ke)⻅且實體存在時)或在正(zheng)交視圖(tu)中渲(xuan)染的(de) 3D ⽹格(當部(bu)件(jian)不可(ke)⻅或實體不存在時)上(shang)進⾏定位。
與(yu) CoPa 和 ReKep 等⽅法(fa)不同,OmniManip 直接讓 VLM 進(jin)⾏ grounding,不會受限于不穩定的 part 分割(ge)或(huo)聚(ju)類結果。
在交互⽅向的(de)(de)采樣(yang)⽅⾯,由于物體的(de)(de)規(gui)范化空間通過 Omni6DPose 錨定,軸的(de)(de)⽅向與語(yu)義對⻬,該(gai)團隊讓 VLM 直(zhi)接對物體標準空間的(de)(de)軸進⾏語(yu)義描述,并根據操(cao)作任務進⾏匹配度排序,以獲(huo)得交互⽅向的(de)(de)候選。
雙(shuang)閉環系統設計(ji)
李⻜⻜團(tuan)隊的⼯作 ReKep 通過關鍵點跟蹤巧妙地實(shi)現(xian)了(le)機(ji)械臂的閉環執(zhi)⾏,但其 VLM 規劃過程是開環的。OmniManip 則更進⼀步,得益于以物體為中⼼的設計理念,⾸次在 VLM 規劃和機(ji)械臂執(zhi)⾏層⾯實(shi)現(xian)了(le)雙(shuang)閉環系統:
閉環規(gui)(gui)劃(hua)(hua):在實(shi)驗中,VLM 推理(li)很容易出(chu)(chu)現幻覺,導致錯誤(wu)的(de)規(gui)(gui)劃(hua)(hua)結(jie)果(guo)(尤其是在涉及(ji) 3D 旋(xuan)轉的(de)任務中,如(ru)倒(dao)⽔、插筆(bi))。OmniManip 賦(fu)予 VLM 閉環規(gui)(gui)劃(hua)(hua)能⼒,通過渲(xuan)染(ran)物體(ti)(ti)的(de)三維模(mo)型,幫(bang)助 VLM 「腦(nao)補」出(chu)(chu)規(gui)(gui)劃(hua)(hua)結(jie)果(guo)后的(de)物體(ti)(ti)樣(yang)貌,再判斷其合理(li)性。
這(zhe)⼀功(gong)能(neng)賦予了 VLM 空(kong)間(jian)反(fan)思能(neng)⼒,使其能(neng)夠(gou)在測試(shi)時(shi)進⾏推(tui)理(li)(li),類似(si)于 OpenAI 的(de)(de) O1,⼤⼤提⾼了操作成功(gong)率。為了保持框架的(de)(de)簡(jian)潔性(xing),研究團隊沒有設計復雜的(de)(de)測試(shi)時(shi)推(tui)理(li)(li)流程,僅作⼀輪校驗就已明顯(xian)提⾼了 VLM 的(de)(de)規劃準(zhun)確率。
閉環執⾏:OmniManip 提(ti)取的(de)(de)(de)交互基元位(wei)于(yu)物體(ti)(ti)的(de)(de)(de)規范空間中,只需引⼊⼀個 6D 位(wei)姿(zi)(zi)跟(gen)(gen)蹤器即可輕松(song)實(shi)現(xian)閉環操作(zuo)。與 ReKep 使⽤的(de)(de)(de)關鍵點(dian)(dian)跟(gen)(gen)蹤器相⽐,基于(yu)物體(ti)(ti)的(de)(de)(de) 6D 位(wei)姿(zi)(zi)跟(gen)(gen)蹤⽅式(shi)更(geng)(geng)為穩(wen)定,并對遮擋具有(you)更(geng)(geng)強的(de)(de)(de)魯(lu)棒性。(缺點(dian)(dian)則是不如(ru)關鍵點(dian)(dian)靈活、⽆法(fa)建(jian)模(mo)柔性物體(ti)(ti)操作(zuo)。)
▍實驗(yan)結(jie)果
強(qiang)⼤的開放詞匯操作性(xing)能
在 12 個(ge)真(zhen)機(ji)短(duan)程任(ren)務上,OmniManip 均展現出卓(zhuo)越(yue)的性能。
雙閉環系統(tong)設計為 OmniManip 帶來了約 17% 的(de)性能提升,這(zhe)證明(ming)了 RRC 在有效(xiao)減少(shao)⼤模型幻(huan)覺影(ying)響⽅⾯的(de)作⽤。
交互基元的魯棒性
VLM 需要基于交(jiao)互基元(yuan)對(dui)機(ji)器(qi)⼈操作(zuo)進(jin)⾏規(gui)劃,如果交(jiao)互基元(yuan)本身(shen)存(cun)在問題,VLM 就會(hui)陷⼊「巧婦(fu)難為⽆⽶之(zhi)炊」的(de)困境。因此,可靠(kao)的(de)交(jiao)互基元(yuan)⾄關重要。以(yi)往的(de)⽅法通常是讓 VLM 直(zhi)接在相機(ji)拍攝(she)的(de) 2D 圖(tu)像上(shang)采樣(yang)交(jiao)互基元(yuan),然后通過相機(ji)的(de)內外參數轉(zhuan)換到(dao) 3D 空間。
然⽽,由于 2D 圖像存在(zai)空間(jian)歧義(yi),采(cai)樣效果(guo)對(dui)相機(ji)視(shi)⻆、圖像紋理(li)和(he)部件形狀等因素(su)極為(wei)敏感(例如,當相機(ji)平視(shi)杯⼦時,之前的(de)⽅法只(zhi)能(neng)對(dui)準杯⼦的(de)側壁、⽽不是開⼝)。⽽ OmniManip 則是在(zai)物體的(de) 3D 規范空間(jian)中進⾏采(cai)樣,能(neng)夠(gou)輕(qing)松克服 2D 圖像的(de)局限性(xing),實現可靠(kao)的(de) 3D 交互基元提取。
強(qiang)⼤的拓展性(xing)與潛⼒
OmniManip 能夠與(yu) high-level 任務(wu)規劃器結(jie)合,實現⻓程任務(wu)操作
作(zuo)為⼀種以(yi)物體為中⼼的算法,OmniManip 與機械臂(bei)本體解耦,能夠(gou)零成本遷(qian)移(yi)⾄不同形態(tai)的本體(例如雙臂(bei)⼈形機器⼈)。
OmniManip 具有強⼤的(de)通⽤泛化能⼒,不受特(te)定場景(jing)和物體限制(zhi)。團隊已將其(qi)應⽤于(yu)數字(zi)資產(chan)⾃動標注(zhu) / 合成管道,實(shi)現⼤規模的(de)機(ji)器⼈軌跡(ji)⾃動采集。
智能服務機器人 |