從技術(shu)(shu)路(lu)線上(shang)看(kan),目前基于大(da)(da)模型的(de)(de)“大(da)(da)腦”技術(shu)(shu)路(lu)線正處(chu)在(zai)并(bing)行探索階(jie)段(duan),并(bing)逐漸向(xiang)端到端的(de)(de)大(da)(da)模型演進(jin)。
現階段主要是 4 條技術路線:
實(shi)現人機語言(yan)交互、任務(wu)理解、推(tui)理和(he)規劃,目前(qian)最為成(cheng)熟。主要(yao)代表是谷歌(ge)的(de) SayCan 模型,通過預訓練(lian)技能的(de)價值函數對齊(Grounds)大語言(yan)模 型或者通過價值函數的(de)訓練(lian)使大語言(yan)模型對用(yong)戶指令(ling)進行推(tui)理分解 獲得任務(wu)步(bu)驟(zou)。
彌合語(yu)言與視覺理解間的(de)(de)差距,讓機(ji)器人(ren)實現更準確的(de)(de)任務規劃(hua)(hua)和決策。主要代(dai)表是清華大學的(de)(de) CoPa 模型(xing),利用嵌入在基礎模型(xing)(比如視覺語(yu)言模型(xing)的(de)(de)代(dai)表 GPT-4V)中 的(de)(de)常識知識為(wei)開放世(shi)界機(ji)器人(ren)操控生(sheng)成(cheng)一(yi)系列的(de)(de)自由度末端執行器 姿勢,生(sheng)成(cheng)的(de)(de)操控任務分為(wei)任務導(dao)向抓(zhua)取和感知運動(dong)規劃(hua)(hua)。
在 VLM 基(ji)礎(chu)上(shang)增加運動控制,解(jie)決機器人運動軌跡決策問題。主要代表是谷歌的 RT-H 模型,學(xue)習語言和(he)運動, 并使用視覺(jue)上(shang)下文,通過利(li)用語言-視覺(jue)-動作結(jie)合的多任務數據集學(xue) 習更強大和(he)靈活的動作策略。
實現對物(wu)理(li)世界(jie)環(huan) 境的(de)(de)全面(mian)感知(zhi),是未來的(de)(de)主要研究方向。主要代表是麻(ma)省理(li)工、IBM 等(deng)共(gong)同研究的(de)(de) MultiPLY 模型,將視(shi)覺、觸覺、語音等(deng) 3D 環(huan)境的(de)(de)各類 特征作為(wei)輸入(ru),以形成場景(jing)外觀的(de)(de)初步印(yin)象,并通(tong)過多(duo)視(shi)圖關聯將印(yin) 象中的(de)(de)輸出融合到 3D,最(zui)終(zhong)得到以對象為(wei)中心的(de)(de)場景(jing)特征。
此外(wai),類腦(nao)(nao)(nao)智(zhi)能和腦(nao)(nao)(nao)機接(jie)口(kou)等創新技(ji)術也為人(ren)(ren)(ren)(ren)形(xing)機器人(ren)(ren)(ren)(ren)“大腦(nao)(nao)(nao)”的(de) 解決方案帶來無限可能。類腦(nao)(nao)(nao)智(zhi)能是(shi)人(ren)(ren)(ren)(ren)工智(zhi)能技(ji)術的(de)進一步延伸,是(shi) 通(tong)(tong)過對人(ren)(ren)(ren)(ren)腦(nao)(nao)(nao)生物結構和思維方式進行直接(jie)模擬,使智(zhi)能體能夠像人(ren)(ren)(ren)(ren)腦(nao)(nao)(nao) 一樣(yang)精確高效處理(li)多場景下的(de)復雜任務,是(shi)未來有望代替大模型的(de)新 技(ji)術路線。腦(nao)(nao)(nao)機接(jie)口(kou)是(shi)在人(ren)(ren)(ren)(ren)腦(nao)(nao)(nao)與外(wai)部設備(bei)間建(jian)立連接(jie)通(tong)(tong)路的(de)技(ji)術,實(shi) 現(xian)人(ren)(ren)(ren)(ren)腦(nao)(nao)(nao)與外(wai)界設備(bei)的(de)信息(xi)交換。未來有望基于腦(nao)(nao)(nao)機接(jie)口(kou)實(shi)現(xian)“大腦(nao)(nao)(nao)”的(de) “人(ren)(ren)(ren)(ren)+機”混合智(zhi)能。
智能服務機器人 |