国产成在线观看免费视频_久久九九久精品国产日韩经典_亚洲AV无码成H人动漫网站_YY亚洲人成电影网站色

創澤機器人
CHUANGZE ROBOT
當前位置:首頁 > 新聞資訊 > 行業動態 > OmniManip引⼊了 VLM 規劃和機器⼈執⾏的雙閉環系統設計,提升機器人3D操作能力

OmniManip引⼊了 VLM 規劃和機器⼈執⾏的雙閉環系統設計,提升機器人3D操作能力

來源:機器人大講堂     編輯:創澤   時間:2025/1/27   主題:其他 [加盟]

近年來視覺(jue)語(yu)⾔基礎模型(Vision  Language  Models,  VLMs)在多(duo)模態(tai)理(li)解和⾼層次(ci)常(chang)識推理(li)上⼤放異彩,如(ru)何將其應⽤于機器⼈以實現通(tong)⽤操(cao)作是具身智能領(ling)域(yu)的(de)⼀個核⼼問題。這⼀⽬標的(de)實現受(shou)兩⼤關鍵挑戰(zhan)制約:

1. VLM 缺(que)少精確的(de) 3D 理解(jie)能⼒:通(tong)過對⽐學習范式訓練(lian)、僅以 2D 圖(tu)像 / ⽂本作為輸⼊的(de) VLM 的(de)天(tian)然局限;

2. ⽆法輸(shu)出低層(ceng)次動作(zuo):將 VLM 在(zai)機(ji)器⼈數據上進⾏微調以(yi)得到(dao)視覺 - 語⾔ - 動作(zuo)(VLA)模型(xing)是⼀種有(you)前景的(de)解決(jue)⽅案,但⽬前仍受到(dao)數據收集(ji)成本(ben)和泛(fan)化能(neng)⼒的(de)限(xian)制。

針對(dui)(dui)上述難(nan)題,北⼤攜⼿智元(yuan)機器(qi)⼈團隊(dui)提出了 OmniManip 架構,基于以對(dui)(dui)象(xiang)為中⼼的(de) 3D 交互(hu)基元(yuan),將 VLM 的(de)高層(ceng)次推理(li)能力轉化為機器(qi)⼈的(de)低(di)層(ceng)次高精(jing)度動(dong)作(zuo)。

針對(dui)⼤模型(xing)幻覺問題和(he)真實環境操(cao)作的不確定性,OmniManip 創新性地引⼊了(le) VLM 規(gui)劃和(he)機器⼈執⾏的雙閉環系統設計,實現了(le)操(cao)作性能的顯著突破。

實驗結果(guo)表明,OmniManip 作為⼀種(zhong)(zhong)免訓練的(de)開放詞匯操(cao)作⽅法,在(zai)各種(zhong)(zhong)機器⼈操(cao)作任務中(zhong)具備強⼤的(de)零樣本(ben)泛化(hua)能⼒。

OmniManip 的關鍵設計包括:

基于 VLM 的任務(wu)解(jie)析:利⽤ VLM 強⼤的常識推理(li)能⼒,將(jiang)任務(wu)分解(jie)為多個結構化(hua)階(jie)段(duan)(Stages),每個階(jie)段(duan)明確指定(ding)了主動物體(Active)、被動物體(Passive)和(he)動作類型(Action)。

以(yi)物體(ti)為(wei)中⼼的交(jiao)互基(ji)元(yuan)作(zuo)為(wei)空(kong)間(jian)約束:通過 3D 基(ji)座(zuo)模(mo)型⽣成任務相關物體(ti)的 3D 模(mo)型和規范(fan)化(hua)空(kong)間(jian)(canonical space),使 VLM 能(neng)夠(gou)直接在該(gai)空(kong)間(jian)中采樣 3D 交(jiao)互基(ji)元(yuan),作(zuo)為(wei) Action 的空(kong)間(jian)約束,從⽽優(you)化(hua)求解出(chu) Active 物體(ti)在 Passive 物體(ti)規范(fan)坐(zuo)標系下(xia)的⽬標交(jiao)互姿態。

閉(bi)環(huan) VLM 規劃:將⽬標交互姿態下(xia)的 Active/Passive 物體(ti)渲染成圖像,由 VLM 評估與重(zhong)采樣,實現 VLM 對(dui)⾃身(shen)規劃結果的閉(bi)環(huan)調整。

閉(bi)環(huan)機器⼈執(zhi)⾏:通過物(wu)體(ti) 6D 姿(zi)態跟蹤器實(shi)(shi)時更新(xin) Active/Passive 物(wu)體(ti)的(de)位姿(zi),轉換(huan)為機械臂末端執(zhi)⾏器的(de)操作軌跡(ji),實(shi)(shi)現閉(bi)環(huan)執(zhi)⾏。

物體(ti)的(de)交(jiao)互(hu)(hu)(hu)基元通(tong)過其(qi)在標準空間(jian)中的(de)交(jiao)互(hu)(hu)(hu)點(dian)和⽅向來(lai)表征。交(jiao)互(hu)(hu)(hu)點(dian) p∈R3 表示物體(ti)上關鍵的(de)交(jiao)互(hu)(hu)(hu)位(wei)置,⽽交(jiao)互(hu)(hu)(hu)⽅向 v∈R3 代表與(yu)任務相(xiang)關的(de)主要軸。這兩(liang)者共(gong)同構成交(jiao)互(hu)(hu)(hu)基元 O={p,v},封裝了滿⾜任務約(yue)束所需(xu)的(de)基本⼏何和功能屬性。這些(xie)標準交(jiao)互(hu)(hu)(hu)基元相(xiang)對(dui)于(yu)其(qi)標準空間(jian)定義,能夠在不同場景中保持⼀致,實現(xian)更通(tong)⽤和可(ke)重⽤的(de)操作策略。

對于通⽤物(wu)體的(de)交互點(dian)提取,OmniManip 利⽤視覺語⾔模型(VLM)在原(yuan)圖(tu)(當部(bu)件(jian)可(ke)⻅且實體存在時)或在正(zheng)交視圖(tu)中渲(xuan)染的(de) 3D ⽹格(當部(bu)件(jian)不可(ke)⻅或實體不存在時)上(shang)進⾏定位。

與(yu) CoPa 和 ReKep 等⽅法(fa)不同,OmniManip 直接讓 VLM 進(jin)⾏ grounding,不會受限于不穩定的 part 分割(ge)或(huo)聚(ju)類結果。

在交互⽅向的(de)(de)采樣(yang)⽅⾯,由于物體的(de)(de)規(gui)范化空間通過 Omni6DPose 錨定,軸的(de)(de)⽅向與語(yu)義對⻬,該(gai)團隊讓 VLM 直(zhi)接對物體標準空間的(de)(de)軸進⾏語(yu)義描述,并根據操(cao)作任務進⾏匹配度排序,以獲(huo)得交互⽅向的(de)(de)候選。

雙(shuang)閉環系統設計(ji)

李⻜⻜團(tuan)隊的⼯作 ReKep 通過關鍵點跟蹤巧妙地實(shi)現(xian)了(le)機(ji)械臂的閉環執(zhi)⾏,但其 VLM 規劃過程是開環的。OmniManip 則更進⼀步,得益于以物體為中⼼的設計理念,⾸次在 VLM 規劃和機(ji)械臂執(zhi)⾏層⾯實(shi)現(xian)了(le)雙(shuang)閉環系統:

閉環規(gui)(gui)劃(hua)(hua):在實(shi)驗中,VLM 推理(li)很容易出(chu)(chu)現幻覺,導致錯誤(wu)的(de)規(gui)(gui)劃(hua)(hua)結(jie)果(guo)(尤其是在涉及(ji) 3D 旋(xuan)轉的(de)任務中,如(ru)倒(dao)⽔、插筆(bi))。OmniManip 賦(fu)予 VLM 閉環規(gui)(gui)劃(hua)(hua)能⼒,通過渲(xuan)染(ran)物體(ti)(ti)的(de)三維模(mo)型,幫(bang)助 VLM 「腦(nao)補」出(chu)(chu)規(gui)(gui)劃(hua)(hua)結(jie)果(guo)后的(de)物體(ti)(ti)樣(yang)貌,再判斷其合理(li)性。

這(zhe)⼀功(gong)能(neng)賦予了 VLM 空(kong)間(jian)反(fan)思能(neng)⼒,使其能(neng)夠(gou)在測試(shi)時(shi)進⾏推(tui)理(li)(li),類似(si)于 OpenAI 的(de)(de) O1,⼤⼤提⾼了操作成功(gong)率。為了保持框架的(de)(de)簡(jian)潔性(xing),研究團隊沒有設計復雜的(de)(de)測試(shi)時(shi)推(tui)理(li)(li)流程,僅作⼀輪校驗就已明顯(xian)提⾼了 VLM 的(de)(de)規劃準(zhun)確率。

閉環執⾏:OmniManip 提(ti)取的(de)(de)(de)交互基元位(wei)于(yu)物體(ti)(ti)的(de)(de)(de)規范空間中,只需引⼊⼀個 6D 位(wei)姿(zi)(zi)跟(gen)(gen)蹤器即可輕松(song)實(shi)現(xian)閉環操作(zuo)。與 ReKep 使⽤的(de)(de)(de)關鍵點(dian)(dian)跟(gen)(gen)蹤器相⽐,基于(yu)物體(ti)(ti)的(de)(de)(de) 6D 位(wei)姿(zi)(zi)跟(gen)(gen)蹤⽅式(shi)更(geng)(geng)為穩(wen)定,并對遮擋具有(you)更(geng)(geng)強的(de)(de)(de)魯(lu)棒性。(缺點(dian)(dian)則是不如(ru)關鍵點(dian)(dian)靈活、⽆法(fa)建(jian)模(mo)柔性物體(ti)(ti)操作(zuo)。)

▍實驗(yan)結(jie)果

強(qiang)⼤的開放詞匯操作性(xing)能

在 12 個(ge)真(zhen)機(ji)短(duan)程任(ren)務上,OmniManip 均展現出卓(zhuo)越(yue)的性能。

雙閉環系統(tong)設計為 OmniManip 帶來了約 17% 的(de)性能提升,這(zhe)證明(ming)了 RRC 在有效(xiao)減少(shao)⼤模型幻(huan)覺影(ying)響⽅⾯的(de)作⽤。

交互基元的魯棒性

VLM 需要基于交(jiao)互基元(yuan)對(dui)機(ji)器(qi)⼈操作(zuo)進(jin)⾏規(gui)劃,如果交(jiao)互基元(yuan)本身(shen)存(cun)在問題,VLM 就會(hui)陷⼊「巧婦(fu)難為⽆⽶之(zhi)炊」的(de)困境。因此,可靠(kao)的(de)交(jiao)互基元(yuan)⾄關重要。以(yi)往的(de)⽅法通常是讓 VLM 直(zhi)接在相機(ji)拍攝(she)的(de) 2D 圖(tu)像上(shang)采樣(yang)交(jiao)互基元(yuan),然后通過相機(ji)的(de)內外參數轉(zhuan)換到(dao) 3D 空間。

然⽽,由于 2D 圖像存在(zai)空間(jian)歧義(yi),采(cai)樣效果(guo)對(dui)相機(ji)視(shi)⻆、圖像紋理(li)和(he)部件形狀等因素(su)極為(wei)敏感(例如,當相機(ji)平視(shi)杯⼦時,之前的(de)⽅法只(zhi)能(neng)對(dui)準杯⼦的(de)側壁、⽽不是開⼝)。⽽ OmniManip 則是在(zai)物體的(de) 3D 規范空間(jian)中進⾏采(cai)樣,能(neng)夠(gou)輕(qing)松克服 2D 圖像的(de)局限性(xing),實現可靠(kao)的(de) 3D 交互基元提取。

強(qiang)⼤的拓展性(xing)與潛⼒

OmniManip 能夠與(yu) high-level 任務(wu)規劃器結(jie)合,實現⻓程任務(wu)操作

作(zuo)為⼀種以(yi)物體為中⼼的算法,OmniManip 與機械臂(bei)本體解耦,能夠(gou)零成本遷(qian)移(yi)⾄不同形態(tai)的本體(例如雙臂(bei)⼈形機器⼈)。

OmniManip 具有強⼤的(de)通⽤泛化能⼒,不受特(te)定場景(jing)和物體限制(zhi)。團隊已將其(qi)應⽤于(yu)數字(zi)資產(chan)⾃動標注(zhu) / 合成管道,實(shi)現⼤規模的(de)機(ji)器⼈軌跡(ji)⾃動采集。



中國人工智能系列白皮書:復合多態機器人,具身智能重要實現路徑的技術特點、應用場景及未來發展潛力

探討了復合多態機器人作為具身智能重要實現路徑的技術特點、應用場景及未來發展潛力。報告通過多模態感知、多場景適應和功能解耦等技術核心,全面分析了智能機器人如何革新服務與生產模式

 移動機器人(AGV_AMR)專用激光雷達產品發展藍皮書-銷售數量約210000 臺, 銷售規模約 8億

中國市場AG V/AMR專用激光雷達銷售數量約 210000 臺, 銷售規模約 8億元; 相信 3D多線 激光雷達將在移動機器人領域迅速打開市場

表情陪伴人形機器人:AI 陪伴的高級賽道,市場需求近萬億,老年人群中的潛在需求約4200億

測算出陪伴機器人在老年人群中的潛在需求約 4200億元人民幣,陪伴機器人在青年人群中的潛在需求約5000億元人民幣,在醫療場景下也有較大的應用前景

表情陪伴人形機器人:AI陪伴的高級賽道,需求近萬億,老年人需求約 4200億

人人都需要陪伴,中國陪伴機器人潛在市場需求近萬億;老年人群中的潛在需求約4200億元;在青年人群中的潛在需求約5000億,自閉癥兒童的情緒監控領域也有較大的應用前景

醫療場景陪伴機器人市場前景:潛在需求約39億

全球5歲以下患自閉癥兒童人數超過60萬人,平均每個兒童每年花費6萬 美元,每年治療費用約360億美元。假設當前的陪伴機器人價格為6500美 元(參考東芝的宮原香苗機器人價格6500美元~12000美元),若每個自閉 癥兒童配備一個陪伴機器人,潛在市場需求為39億美元

青年陪伴機器人市場前景:潛在需求約5000億

陪伴機器人在中國青年人群中的潛在市場需求約5000億,售價將會在0.5-6萬元區間,我們認為以2萬元/臺作為價格的中性假設是合理的

深圳人形機器人產業發展情況:具有人形機器人產業先發優勢

深圳市機器人產業發展良好,且擁有優必選、逐際動力、樂聚機器人等一批本體企業,發布了優必選Walker X、樂聚夸父、逐際動力CL-1等人形機器人產品,已具有人形機器人產業先發優勢

珠三角人形機器人產業發展情況:全球人形機器人供應鏈的重要集聚區

珠三角地區是全球人形機器人供應鏈的重要集聚區,控制、伺服系統技術較為領先;以深圳為發展重心,廣佛莞為發展主力的人形機器人產業發展格局

長三角人形機器人產業發展情況:完整的機器人產業鏈條

長三角是我國工業機器人產業發展最為完備的區域之一,產能規模大,產業鏈條完整,產業投資集聚度高,以上海為核心,蘇州、南京、常州、杭州、寧波、蕪湖多點發力的發展格局,綜合實力走在全國前列。

京津冀人形機器人產業發展情況:產業鏈協同發展模式

北京科技創新資源豐富,產業發展程度在三地居于首位,而天津與河北工業基礎也較雄厚且傳統產業轉型需求旺盛,故許多機器人企業采取北京研發,生產,落地在天津,河北的模式,且河北發展成為京津機器人企業的重要零部件供應地

老人陪伴機器人市場前景:潛在需求約4200億

陪伴機器人在中國老年人群中的潛在市場需求為4200億人民幣,未來中國陪伴機器人(含桌面級、寵物級、表情陪 伴機器人)的售價將會在0.5-6萬元區間

機器人產業面臨的三個主要問題:行業內卷無序價格競爭,關鍵核心技術和占有率低

機器人產品在技術上趨于同質化,難以形成明顯的差異化競爭優勢;部分關鍵核心技術仍需突破,限制產業進一步發展;部分國產機器人品牌在高端市場表現相對薄弱
資料獲取
行業動態
== 最新資訊 ==
OmniManip引⼊了
AI大模型賦能B端應用,高ROI場景將率
中國工業大模型行業發展研究報告-工業大模
AIGC實踐案例集錦:對話先行者,洞見新
2025年技術趨勢-構建一個更加個性化和
2025年五大趨勢:人智共創未來+點燃創
2025年十大AI技術趨勢-原生統一多模
2025年AI產業發展十大趨勢報告-應用
生成式AI賦能零售電商行業解決方案白皮書
技術革新引領未來—生成式AI如何塑造核心
智能家居無線互聯的發展趨勢,智能家居、智
2024中國智能客服市場研究報告:探索A
中國人工智能系列白皮書:復合多態機器人,
移動機器人(AGV_AMR)專用激光雷達
表情陪伴人形機器人:AI 陪伴的高級賽
== 機(ji)器(qi)人推薦 ==
迎賓講解服務機器人

服務機器人(迎賓、講解、導診...)


            智能服務機器人                   
版權所有 創澤智能機器人集團股份有限公司 中國運營中心:北京 清華科技園九號樓5層 中國生產中心:山東日照太原路71號
銷售1:4006-935-088 銷售2:4006-937-088 客服電話: 4008-128-728