從斯坦福大學的 VIMA 機器人智能體,到谷歌 DeepMind 推出(chu)首個控制機器人的視覺(jue) - 語(yu)言 - 動作(VLA)的模型(xing) RT-2,大模型(xing)加持(chi)的機器人研(yan)究備(bei)受關注。
當前,自監(jian)督和語(yu)言(yan)監(jian)督的(de)圖(tu)像模型已經包含(han)豐富(fu)的(de)世(shi)界知識,這對于泛化來(lai)說非常重要,但圖(tu)像特征是二(er)維(wei)(wei)的(de)。我(wo)們知道,機器人(ren)任務(wu)通常需要對現(xian)實世(shi)界中三維(wei)(wei)物(wu)體的(de)幾何形狀有所了解。
基于此(ci),來自(zi) MIT CSAIL 和(he) IAIFI 的(de)研究(jiu)者利用蒸餾特征場(chang)(Distilled Feature Field,DFF),將(jiang)準確的(de) 3D 幾(ji)何圖(tu)形與來自(zi) 2D 基礎模(mo)型的(de)豐(feng)富語義結合(he)起來,讓機(ji)器人能(neng)夠利用 2D 基礎模(mo)型中(zhong)豐(feng)富的(de)視覺(jue)和(he)語言先驗,完成(cheng)語言指(zhi)導的(de)操作。
論文地址://arxiv.org/abs/2308.07931
具體(ti)來說,該研究(jiu)提(ti)(ti)出(chu)了一種用(yong)于(yu) 6-DOF 抓取和放(fang)置的(de)小樣本學習(xi)方法,并(bing)(bing)利用(yong)強大的(de)空(kong)間和語(yu)義先驗泛化到未(wei)見(jian)過(guo)物(wu)(wu)體(ti)上。使(shi)用(yong)從視覺 - 語(yu)言模型 CLIP 中提(ti)(ti)取的(de)特征,該研究(jiu)提(ti)(ti)出(chu)了一種通過(guo)開放(fang)性的(de)自然語(yu)言指(zhi)令(ling)對(dui)新物(wu)(wu)體(ti)進行操作,并(bing)(bing)展示了這(zhe)種方法泛化到未(wei)見(jian)過(guo)的(de)表達和新型物(wu)(wu)體(ti)的(de)能力。
研究團(tuan)隊用一個講(jiang)解視頻(pin)詳細介(jie)紹了 F3RM 方法(fa)的技術原理:
資料獲取 | |
新聞資訊 | |
== 資(zi)訊 == | |
» 中國人工智能系列白皮書:復合多態機器人, | |
» 移動機器人(AGV_AMR)專用激光雷達 | |
» 表情陪伴人形機器人:AI 陪伴的高級賽 | |
» AI行業深度報告模型能力向上價格向下應用 | |
» 中國工業大模型行業發展研究報告-大模型有 | |
» 2025具身智能行業發展研究報告具身智能 | |
» 新一代智能終端藍皮書:擴展了智能終端的功 | |
» 中國AI大模型產業發展驅動力:政策因素 | |
» 2025年中國AI大模型市場現狀及發展趨 | |
» 表情陪伴人形機器人:AI陪伴的高級賽道, | |
» 人形機器人“好用”的關鍵 特斯拉Opti | |
» AI迎賓接待機器人的技術壁壘之情感智能 | |
» 醫療場景陪伴機器人市場前景:潛在需求約3 | |
» 青年陪伴機器人市場前景:潛在需求約500 | |
» 深圳人形機器人產業發展情況:具有人形機器 | |
== 機器人推薦(jian) == | |
服務機器人(迎賓、講解、導診...) |
|
消毒機器人排名 導覽機器人 |