當前位置：首頁 > 新聞資訊 > 行業動態 > OmniManip引⼊了 VLM 規劃和機器⼈執⾏的雙閉環系統設計,提升機器人3D操作能力

OmniManip引⼊了 VLM 規劃和機器⼈執⾏的雙閉環系統設計,提升機器人3D操作能力

來源：機器人大講堂編輯：創澤時間：2025/1/27 主題：其他 [加盟]

近年來視覺(jue)語(yu)⾔基礎模型（Vision Language Models, VLMs）在多(duo)模態(tai)理(li)解和⾼層次(ci)常(chang)識推理(li)上⼤放異彩，如(ru)何將其應⽤于機器⼈以實現通(tong)⽤操(cao)作是具身智能領(ling)域(yu)的(de)⼀個核⼼問題。這⼀⽬標的(de)實現受(shou)兩⼤關鍵挑戰(zhan)制約：

1. VLM 缺(que)少精確的(de) 3D 理解(jie)能⼒：通(tong)過對⽐學習范式訓練(lian)、僅以 2D 圖(tu)像 / ⽂本作為輸⼊的(de) VLM 的(de)天(tian)然局限；

2. ⽆法輸(shu)出低層(ceng)次動作(zuo)：將 VLM 在(zai)機(ji)器⼈數據上進⾏微調以(yi)得到(dao)視覺 - 語⾔ - 動作(zuo)（VLA）模型(xing)是⼀種有(you)前景的(de)解決(jue)⽅案，但⽬前仍受到(dao)數據收集(ji)成本(ben)和泛(fan)化能(neng)⼒的(de)限(xian)制。

針對(dui)(dui)上述難(nan)題，北⼤攜⼿智元(yuan)機器(qi)⼈團隊(dui)提出了 OmniManip 架構，基于以對(dui)(dui)象(xiang)為中⼼的(de) 3D 交互(hu)基元(yuan)，將 VLM 的(de)高層(ceng)次推理(li)能力轉化為機器(qi)⼈的(de)低(di)層(ceng)次高精(jing)度動(dong)作(zuo)。

針對(dui)⼤模型(xing)幻覺問題和(he)真實環境操(cao)作的不確定性，OmniManip 創新性地引⼊了(le) VLM 規(gui)劃和(he)機器⼈執⾏的雙閉環系統設計，實現了(le)操(cao)作性能的顯著突破。

實驗結果(guo)表明，OmniManip 作為⼀種(zhong)(zhong)免訓練的(de)開放詞匯操(cao)作⽅法，在(zai)各種(zhong)(zhong)機器⼈操(cao)作任務中(zhong)具備強⼤的(de)零樣本(ben)泛化(hua)能⼒。

OmniManip 的關鍵設計包括：

基于 VLM 的任務(wu)解(jie)析：利⽤ VLM 強⼤的常識推理(li)能⼒，將(jiang)任務(wu)分解(jie)為多個結構化(hua)階(jie)段(duan)（Stages），每個階(jie)段(duan)明確指定(ding)了主動物體（Active）、被動物體（Passive）和(he)動作類型（Action）。

以(yi)物體(ti)為(wei)中⼼的交(jiao)互基(ji)元(yuan)作(zuo)為(wei)空(kong)間(jian)約束：通過 3D 基(ji)座(zuo)模(mo)型⽣成任務相關物體(ti)的 3D 模(mo)型和規范(fan)化(hua)空(kong)間(jian)（canonical space），使 VLM 能(neng)夠(gou)直接在該(gai)空(kong)間(jian)中采樣 3D 交(jiao)互基(ji)元(yuan)，作(zuo)為(wei) Action 的空(kong)間(jian)約束，從⽽優(you)化(hua)求解出(chu) Active 物體(ti)在 Passive 物體(ti)規范(fan)坐(zuo)標系下(xia)的⽬標交(jiao)互姿態。

閉(bi)環(huan) VLM 規劃：將⽬標交互姿態下(xia)的 Active/Passive 物體(ti)渲染成圖像，由 VLM 評估與重(zhong)采樣，實現 VLM 對(dui)⾃身(shen)規劃結果的閉(bi)環(huan)調整。

閉(bi)環(huan)機器⼈執(zhi)⾏：通過物(wu)體(ti) 6D 姿(zi)態跟蹤器實(shi)(shi)時更新(xin) Active/Passive 物(wu)體(ti)的(de)位姿(zi)，轉換(huan)為機械臂末端執(zhi)⾏器的(de)操作軌跡(ji)，實(shi)(shi)現閉(bi)環(huan)執(zhi)⾏。

物體(ti)的(de)交(jiao)互(hu)(hu)(hu)基元通(tong)過其(qi)在標準空間(jian)中的(de)交(jiao)互(hu)(hu)(hu)點(dian)和⽅向來(lai)表征。交(jiao)互(hu)(hu)(hu)點(dian) p∈R3 表示物體(ti)上關鍵的(de)交(jiao)互(hu)(hu)(hu)位(wei)置，⽽交(jiao)互(hu)(hu)(hu)⽅向 v∈R3 代表與(yu)任務相(xiang)關的(de)主要軸。這兩(liang)者共(gong)同構成交(jiao)互(hu)(hu)(hu)基元 O={p,v}，封裝了滿⾜任務約(yue)束所需(xu)的(de)基本⼏何和功能屬性。這些(xie)標準交(jiao)互(hu)(hu)(hu)基元相(xiang)對(dui)于(yu)其(qi)標準空間(jian)定義，能夠在不同場景中保持⼀致，實現(xian)更通(tong)⽤和可(ke)重⽤的(de)操作策略。

對于通⽤物(wu)體的(de)交互點(dian)提取，OmniManip 利⽤視覺語⾔模型（VLM）在原(yuan)圖(tu)（當部(bu)件(jian)可(ke)⻅且實體存在時）或在正(zheng)交視圖(tu)中渲(xuan)染的(de) 3D ⽹格（當部(bu)件(jian)不可(ke)⻅或實體不存在時）上(shang)進⾏定位。

與(yu) CoPa 和 ReKep 等⽅法(fa)不同，OmniManip 直接讓 VLM 進(jin)⾏ grounding，不會受限于不穩定的 part 分割(ge)或(huo)聚(ju)類結果。

在交互⽅向的(de)(de)采樣(yang)⽅⾯，由于物體的(de)(de)規(gui)范化空間通過 Omni6DPose 錨定，軸的(de)(de)⽅向與語(yu)義對⻬，該(gai)團隊讓 VLM 直(zhi)接對物體標準空間的(de)(de)軸進⾏語(yu)義描述，并根據操(cao)作任務進⾏匹配度排序，以獲(huo)得交互⽅向的(de)(de)候選。

雙(shuang)閉環系統設計(ji)

李⻜⻜團(tuan)隊的⼯作 ReKep 通過關鍵點跟蹤巧妙地實(shi)現(xian)了(le)機(ji)械臂的閉環執(zhi)⾏，但其 VLM 規劃過程是開環的。OmniManip 則更進⼀步，得益于以物體為中⼼的設計理念，⾸次在 VLM 規劃和機(ji)械臂執(zhi)⾏層⾯實(shi)現(xian)了(le)雙(shuang)閉環系統：

閉環規(gui)(gui)劃(hua)(hua)：在實(shi)驗中，VLM 推理(li)很容易出(chu)(chu)現幻覺，導致錯誤(wu)的(de)規(gui)(gui)劃(hua)(hua)結(jie)果(guo)（尤其是在涉及(ji) 3D 旋(xuan)轉的(de)任務中，如(ru)倒(dao)⽔、插筆(bi)）。OmniManip 賦(fu)予 VLM 閉環規(gui)(gui)劃(hua)(hua)能⼒，通過渲(xuan)染(ran)物體(ti)(ti)的(de)三維模(mo)型，幫(bang)助 VLM 「腦(nao)補」出(chu)(chu)規(gui)(gui)劃(hua)(hua)結(jie)果(guo)后的(de)物體(ti)(ti)樣(yang)貌，再判斷其合理(li)性。

這(zhe)⼀功(gong)能(neng)賦予了 VLM 空(kong)間(jian)反(fan)思能(neng)⼒，使其能(neng)夠(gou)在測試(shi)時(shi)進⾏推(tui)理(li)(li)，類似(si)于 OpenAI 的(de)(de) O1，⼤⼤提⾼了操作成功(gong)率。為了保持框架的(de)(de)簡(jian)潔性(xing)，研究團隊沒有設計復雜的(de)(de)測試(shi)時(shi)推(tui)理(li)(li)流程，僅作⼀輪校驗就已明顯(xian)提⾼了 VLM 的(de)(de)規劃準(zhun)確率。

閉環執⾏：OmniManip 提(ti)取的(de)(de)(de)交互基元位(wei)于(yu)物體(ti)(ti)的(de)(de)(de)規范空間中，只需引⼊⼀個 6D 位(wei)姿(zi)(zi)跟(gen)(gen)蹤器即可輕松(song)實(shi)現(xian)閉環操作(zuo)。與 ReKep 使⽤的(de)(de)(de)關鍵點(dian)(dian)跟(gen)(gen)蹤器相⽐，基于(yu)物體(ti)(ti)的(de)(de)(de) 6D 位(wei)姿(zi)(zi)跟(gen)(gen)蹤⽅式(shi)更(geng)(geng)為穩(wen)定，并對遮擋具有(you)更(geng)(geng)強的(de)(de)(de)魯(lu)棒性。（缺點(dian)(dian)則是不如(ru)關鍵點(dian)(dian)靈活、⽆法(fa)建(jian)模(mo)柔性物體(ti)(ti)操作(zuo)。）

▍實驗(yan)結(jie)果

強(qiang)⼤的開放詞匯操作性(xing)能

在 12 個(ge)真(zhen)機(ji)短(duan)程任(ren)務上，OmniManip 均展現出卓(zhuo)越(yue)的性能。

雙閉環系統(tong)設計為 OmniManip 帶來了約 17% 的(de)性能提升，這(zhe)證明(ming)了 RRC 在有效(xiao)減少(shao)⼤模型幻(huan)覺影(ying)響⽅⾯的(de)作⽤。

交互基元的魯棒性

VLM 需要基于交(jiao)互基元(yuan)對(dui)機(ji)器(qi)⼈操作(zuo)進(jin)⾏規(gui)劃，如果交(jiao)互基元(yuan)本身(shen)存(cun)在問題，VLM 就會(hui)陷⼊「巧婦(fu)難為⽆⽶之(zhi)炊」的(de)困境。因此，可靠(kao)的(de)交(jiao)互基元(yuan)⾄關重要。以(yi)往的(de)⽅法通常是讓 VLM 直(zhi)接在相機(ji)拍攝(she)的(de) 2D 圖(tu)像上(shang)采樣(yang)交(jiao)互基元(yuan)，然后通過相機(ji)的(de)內外參數轉(zhuan)換到(dao) 3D 空間。

然⽽，由于 2D 圖像存在(zai)空間(jian)歧義(yi)，采(cai)樣效果(guo)對(dui)相機(ji)視(shi)⻆、圖像紋理(li)和(he)部件形狀等因素(su)極為(wei)敏感（例如，當相機(ji)平視(shi)杯⼦時，之前的(de)⽅法只(zhi)能(neng)對(dui)準杯⼦的(de)側壁、⽽不是開⼝）。⽽ OmniManip 則是在(zai)物體的(de) 3D 規范空間(jian)中進⾏采(cai)樣，能(neng)夠(gou)輕(qing)松克服 2D 圖像的(de)局限性(xing)，實現可靠(kao)的(de) 3D 交互基元提取。

強(qiang)⼤的拓展性(xing)與潛⼒

OmniManip 能夠與(yu) high-level 任務(wu)規劃器結(jie)合，實現⻓程任務(wu)操作

作(zuo)為⼀種以(yi)物體為中⼼的算法，OmniManip 與機械臂(bei)本體解耦，能夠(gou)零成本遷(qian)移(yi)⾄不同形態(tai)的本體（例如雙臂(bei)⼈形機器⼈）。

OmniManip 具有強⼤的(de)通⽤泛化能⼒，不受特(te)定場景(jing)和物體限制(zhi)。團隊已將其(qi)應⽤于(yu)數字(zi)資產(chan)⾃動標注(zhu) / 合成管道，實(shi)現⼤規模的(de)機(ji)器⼈軌跡(ji)⾃動采集。

国产成在线观看免费视频_久久九九久精品国产日韩经典_亚洲AV无码成H人动漫网站_YY亚洲人成电影网站色

OmniManip引⼊了 VLM 規劃和機器⼈執⾏的雙閉環系統設計,提升機器人3D操作能力

中國人工智能系列白皮書：復合多態機器人,具身智能重要實現路徑的技術特點、應用場景及未來發展潛力

移動機器人(AGV_AMR)專用激光雷達產品發展藍皮書-銷售數量約210000 臺, 銷售規模約 8億

表情陪伴人形機器人：AI 陪伴的高級賽道,市場需求近萬億,老年人群中的潛在需求約4200億

表情陪伴人形機器人：AI陪伴的高級賽道，需求近萬億，老年人需求約 4200億

醫療場景陪伴機器人市場前景:潛在需求約39億

青年陪伴機器人市場前景:潛在需求約5000億

深圳人形機器人產業發展情況：具有人形機器人產業先發優勢

珠三角人形機器人產業發展情況：全球人形機器人供應鏈的重要集聚區

長三角人形機器人產業發展情況：完整的機器人產業鏈條

京津冀人形機器人產業發展情況：產業鏈協同發展模式

老人陪伴機器人市場前景:潛在需求約4200億

機器人產業面臨的三個主要問題:行業內卷無序價格競爭,關鍵核心技術和占有率低

服務機器人(迎賓、講解、導診...)