“小(xiao)腦(nao)”的(de)運動(dong)規劃(hua)與控(kong)制(zhi)是(shi)(shi)展(zhan)廳迎(ying)賓講解(jie)機(ji)器(qi)人實現自(zi)然和流暢動(dong)作的(de) 關鍵。傳(chuan)統(tong)的(de)基于(yu)(yu)模型的(de)控(kong)制(zhi)方法(fa)(fa)(fa)通(tong)過(guo)建立(li)機(ji)器(qi)人的(de)運動(dong)學(xue)(xue)(xue)和動(dong)力學(xue)(xue)(xue)模型,進行(xing)運動(dong)軌(gui)跡規劃(hua)和平衡控(kong)制(zhi),特點是(shi)(shi)身體控(kong)制(zhi)穩(wen)健,步頻(pin)較慢,代(dai)表算(suan)法(fa)(fa)(fa)有零力矩(ju)點(ZMP,Zero Moment Point)算(suan)法(fa)(fa)(fa)、線性(xing)倒 立(li)擺(LIP,Linear Inverted Pendulum)算(suan)法(fa)(fa)(fa)、模型預測控(kong)制(zhi)(MPC, Model Predictive Control)算(suan)法(fa)(fa)(fa)、中(zhong)心(xin)引力優化(hua)(CFO,Central Force Optimization)算(suan)法(fa)(fa)(fa)等,但整體開發較為復雜,成本高,不利于(yu)(yu)產(chan)品快 速(su)迭代(dai)。基于(yu)(yu)學(xue)(xue)(xue)習(xi)(xi)的(de)控(kong)制(zhi)方法(fa)(fa)(fa)則使用端(duan)到端(duan)的(de)人工智能(neng)技術,代(dai)替(ti)復 雜的(de)運動(dong)學(xue)(xue)(xue)模型,大幅度降低了“小(xiao)腦(nao)”開發難度、提升了迭代(dai)速(su)度, 一般通(tong)過(guo)人類(lei)示教(jiao)(jiao)或自(zi)主學(xue)(xue)(xue)習(xi)(xi)建立(li)運動(dong)執行(xing)策略(lve)(lve)。其中(zhong)通(tong)過(guo)人類(lei)示教(jiao)(jiao) 的(de)方式也(ye)稱為模仿學(xue)(xue)(xue)習(xi)(xi),指(zhi)通(tong)過(guo)人或者其他專(zhuan)家提供反饋示教(jiao)(jiao)的(de)方式, 使機(ji)器(qi)人以產(chan)生與示教(jiao)(jiao)相似(si)的(de)行(xing)動(dong)策略(lve)(lve)進行(xing)學(xue)(xue)(xue)習(xi)(xi),效果依賴高質量示范(fan)數據(ju)。通(tong)過(guo)自(zi)主學(xue)(xue)(xue)習(xi)(xi)的(de)方式也(ye)稱為強化(hua)學(xue)(xue)(xue)習(xi)(xi),指(zhi)通(tong)過(guo)精心(xin)設(she)計(ji)學(xue)(xue)(xue)習(xi)(xi) 目標(biao),機(ji)器(qi)人不斷在環境中(zhong)探索逐(zhu)漸(jian)發現最大化(hua)獎勵的(de)方式學(xue)(xue)(xue)習(xi)(xi)到最 優的(de)執行(xing)策略(lve)(lve),效果依賴于(yu)(yu)仿真環境。
目(mu)前主要的“小(xiao)腦(nao)”技術路(lu)線包(bao)括(kuo)以下幾(ji)種(zhong)。
基于(yu)模型(xing)的控制方(fang)法:
ZMP判(pan)據及預觀控制(zhi)。基于簡化的(de)倒立擺模型/小(xiao)車模型進行質(zhi) 心點運動規劃(hua)和控制(zhi)。該算法需要精確的(de)動力(li)學(xue)模型和復(fu)雜的(de)在線控 制(zhi)策略,擾動適(shi)應性差。典型代表有(you)日本(ben)本(ben)田、AIST 的(de)相關產(chan)品。
混雜零(ling)動(dong)態規劃方法。通過在(zai)全身動(dong)力學模型(xing)(xing)上采用非線性(xing)控制(zhi), 根據狀態選擇步態,進行軌(gui)跡(ji)跟蹤控制(zhi)。該算(suan)法需要精確的(de)動(dong)力學模 型(xing)(xing)和線性(xing)化(hua)反饋,實時求解慢(man),對復雜環境適應性(xing)差。典型(xing)(xing)代表有美 國俄勒岡州(zhou)立大(da)學的(de)相(xiang)關產品。
虛(xu)(xu)擬模型解耦控制(zhi)。將控制(zhi)解耦為(wei)速(su)度、姿態、高度等,建立彈 簧阻尼等虛(xu)(xu)擬模型進行力矩控制(zhi)。該算(suan)法降低了對精確動力學模型的(de) 依賴,但融合復(fu)雜(za),對復(fu)雜(za)環(huan)境的(de)容(rong)錯能力有限(xian)。典型代表(biao)為(wei)波士頓 動力的(de)相(xiang)關產品(pin)。
模(mo)(mo)(mo)型(xing)預(yu)測控(kong)制(zhi)(zhi)+全身(shen)控(kong)制(zhi)(zhi)。基于簡單(dan)/復雜的動力(li)(li)學(xue)模(mo)(mo)(mo)型(xing)進行力(li)(li)的 預(yu)測控(kong)制(zhi)(zhi),進而(er)全身(shen)優化,可實現臂足協同及物(wu)體接觸。該算法依賴(lai) 精確動力(li)(li)學(xue)模(mo)(mo)(mo)型(xing)和(he)狀態估(gu)計,線(xian)性(xing)模(mo)(mo)(mo)型(xing)僅適(shi)用于下肢單(dan)一步(bu)態的控(kong)制(zhi)(zhi), 而(er)非線(xian)性(xing)模(mo)(mo)(mo)型(xing)求解速度慢。典型(xing)代表有美國麻省理工(gong)學(xue)院、瑞士蘇(su)黎(li) 世聯邦理工(gong)大學(xue)和(he)波士頓動力(li)(li)公司(si)的相(xiang)關產品。
基于學習的(de)控制方(fang)法:
強化學習。通(tong)(tong)過(guo)獎勵設計和(he)仿真(zhen)環境設計,實現了受控步態、奔 跑、轉彎(wan)、上下臺階等運動(dong)學習,提升運動(dong)的(de)魯(lu)棒(bang)性(xing),并可以通(tong)(tong)過(guo)采 用因果 Transformer 模型,從(cong)觀(guan)測和(he)行(xing)動(dong)的(de)歷史(shi)中對未(wei)來行(xing)動(dong)進行(xing)自 回歸預測來訓練。典型代表(biao)如(ru) Agility Robotics 的(de)相關產品。
模仿學習。采用非線性最優化求解的動作映射,以人機關節軌跡 相似為目標,以機器人可執行性、安全性、穩定性判據為約束,規劃 運動方案。該算法計算耗時長,嚴重依賴初值,對碰撞檢測難以解析 計算。典型代表有日本 AIST、北京理工大學的相關產品。
智能服務機器人 |