<dd id='7306a'></dd>

當前位置：首頁 > 新聞資訊 > 機器人開發 > 大模型與智能機器人結合,用語言指導機器人抓取物體

大模型與智能機器人結合,用語言指導機器人抓取物體

來源：CAAI認知系統與信息處理專委會編輯：創澤時間：2023/9/6 主題：其他 [加盟]

從斯坦福大學的 VIMA 機器人智能體，到谷歌 DeepMind 推出(chu)首個控制機器人的視覺(jue) - 語(yu)言 - 動作（VLA）的模型(xing) RT-2，大模型(xing)加持(chi)的機器人研(yan)究備(bei)受關注。

當前，自監(jian)督和語(yu)言(yan)監(jian)督的(de)圖(tu)像模型已經包含(han)豐富(fu)的(de)世(shi)界知識，這對于泛化來(lai)說非常重要，但圖(tu)像特征是二(er)維(wei)(wei)的(de)。我(wo)們知道，機器人(ren)任務(wu)通常需要對現(xian)實世(shi)界中三維(wei)(wei)物(wu)體的(de)幾何形狀有所了解。

基于此(ci)，來自(zi) MIT CSAIL 和(he) IAIFI 的(de)研究(jiu)者利用蒸餾特征場(chang)（Distilled Feature Field，DFF），將(jiang)準確的(de) 3D 幾(ji)何圖(tu)形與來自(zi) 2D 基礎模(mo)型的(de)豐(feng)富語義結合(he)起來，讓機(ji)器人能(neng)夠利用 2D 基礎模(mo)型中(zhong)豐(feng)富的(de)視覺(jue)和(he)語言先驗，完成(cheng)語言指(zhi)導的(de)操作。

論文地址：//arxiv.org/abs/2308.07931

具體(ti)來說，該研究(jiu)提(ti)(ti)出(chu)了一種用(yong)于(yu) 6-DOF 抓取和放(fang)置的(de)小樣本學習(xi)方法，并(bing)(bing)利用(yong)強大的(de)空(kong)間和語(yu)義先驗泛化到未(wei)見(jian)過(guo)物(wu)(wu)體(ti)上。使(shi)用(yong)從視覺 - 語(yu)言模型 CLIP 中提(ti)(ti)取的(de)特征，該研究(jiu)提(ti)(ti)出(chu)了一種通過(guo)開放(fang)性的(de)自然語(yu)言指(zhi)令(ling)對(dui)新物(wu)(wu)體(ti)進行操作，并(bing)(bing)展示了這(zhe)種方法泛化到未(wei)見(jian)過(guo)的(de)表達和新型物(wu)(wu)體(ti)的(de)能力。

研究團(tuan)隊用一個講(jiang)解視頻(pin)詳細介(jie)紹了 F3RM 方法(fa)的技術原理：

国产成在线观看免费视频_久久九九久精品国产日韩经典_亚洲AV无码成H人动漫网站_YY亚洲人成电影网站色

大模型與智能機器人結合,用語言指導機器人抓取物體

控制器在機器人運動控制系統中發揮核心作用

機器人整體電子電氣結構以電控系統為基礎

氣壓/液壓驅動型機器人靈巧手特點

電機驅動型機器人靈巧手特點

驅動器混合置型機器人靈巧手特點

驅動器內置型機器人靈巧手特點

驅動器外置型機器人靈巧手特點

機器人多指靈巧手經歷了三個階段

機器人靈巧手是指數≥3，自由度≥9 的末端執行器

智能類人機器人特斯拉擎天柱 (Optimus) 執行機構分析

人形機器人前主要聚焦于運動控制能力的提升

特斯拉機器人軀干共有28個關節

服務機器人(迎賓、講解、導診...)