AI迎賓接待機器人的核心是人機交互,在智能人機交互的研究中,對情感的識別、分析、理解、表達的能力是重點研發方向。情感計算作為人機交互技術的重要內容之一,致力于通過計算機對人類的情感狀態進行識別和分析。 情感計算的核心在于利用機器學習和人工智能算法,從人類的語音、面部表 情、生理特征等多個維度捕捉情感信息,并對其進行分析和判別。
情感計算包括文本、語音、視覺三種形式
可以由3部分組成:文本信息采集、情感特征提取和情感信息分類。文本信息采集模塊通過文本抓取工具(如網頁爬蟲工具) 獲得情感評論文本,并傳遞到下一個情感特征提取模塊,然后對文本中自然語言文本轉化成計算機能夠識別和處理的形式,并 通過情感信息分類模塊得到計算結果。
(1)20世紀80年代末至90年代初期,麻省理工學院多媒體實驗室構造了一個“情感編輯器”對外界各種情感信號進行采
集,綜合使用人體的生理信號、面部表情信號、語音信號來初步識別各種情感,并讓機器對各種情感做出適當的簡單反應;
(2)1999年,Moriyama提出語音和情感之間的線性關聯模型,并據此在電子商務系統中建造出能夠識別用戶情感的圖像采
集系統語音界面,實現了語音情感在電子商務中的初步應用。
(3)面部表情識別:到目前為止,面部表情識別模型都是將情感視為離散的,即將面部表情分成為數不多的類別,例如“高 興”,“悲傷”,“憤怒”等。1971年,Ekman和Friesen研究了6種基本表情(高興、悲傷、驚訝、恐懼、憤怒和厭惡),并系 統地建立了上千幅不同的人臉表情圖像庫。
(4)手勢識別:一個完整的手勢識別系統包括三個部分和三個過程,三個部分分別是采集部分、分類部分和識別部分;三個 過程分別是分割過程、跟蹤過程和識別過程。
頭部研發機構皆聚焦于情感智能模型的研發。目前全球頂尖的互聯網企業 與頭部科研院所皆有在情感智能大模型進行研發突破,例如META、 谷歌、 Hume AI,國內的上海交通大學等科研機構。主要研發項目在語音、表情、 聊天的識別于反饋上,隨著后續技術成熟,搭載了先進模型算法的表情陪伴 機器人將可以實現更精準的交流與深層次的情感溝通,進而給用戶提供情 緒價值。
多模態感知技術讓機器人具備類似人類五感的多模態智能感知能力;通過表情識別、語音情感分析等技術,讓機器人感知人 類情緒并做出相應情感回應,增加親和力和互動性
AI陪伴機器人在外觀設計具備人類相似特征;在行為模式上模仿人類的行為,具備手眼協調,動態足控制能力;在各個領域的實際應用和用途,協助人類完成各種復雜任務
機器人機械手有多個關節和多個自由度,具有很高的靈活性;配置了必要的傳感器,可以精確控制機械手的操作;微小的外形尺寸使得機械手具有很高的操作精度
展廳迎賓機器人的“小腦”核心技術正在從基于模型的控制方法向基于學習的控制方法演進,視覺-語言模型為機器人學習復雜技能提供了新的范式,有很強的泛化能力,能夠根據不同的指令組合技能
基于模型的小腦技術路線控制方法有ZMP判據及預觀控制,混雜零動態規劃方法,虛擬模型解耦控制;基于學習的小腦技術路線控制方法有強化學習和模仿學習
迎賓服務機器人需要整合視覺,聽覺,觸覺等多種感知模態,使機器人在復雜場景中做出更準確的決策;結合聽覺和觸覺信息,機器人可以更好地理解人類的指令和情感狀態
LLM(大語言模型+VFM(視覺基礎模型)實現人機語言交互、任務理解、推理和規劃;VLM(視覺-語言模型)實現更準確的任務規劃和決策;VLA (視覺-語言-動作模型)解決機器人運動軌跡決策問題
迎賓機器人需要具備與人類實時的任務級交互能力,快速理解人類通過語言,手勢等方式給出的指令,有效執行;迎賓機器人需要能夠通過視覺、聽覺、觸覺等多種感官獲取信息
LDS SLAM 與 VSLAM 各有優劣,二者相容或成為行業主流發展方向之一;LDS SLAM 技術可視范圍廣,地圖精度更高;VSLAM技術成本更低,壽命長,不易損
將重復率較高,工作內容較枯燥的工作交給服務機器人去做,可以使員工把更多的精力集中在服務客戶上面,并可以降低一定成本,可降低總成本的17%
送餐已經可以通過機器人自主完成,員工可以把節省出來的時間和精力,投入在給客人慶生,涮菜涮肉等服務水平的提升上,機器人真正帶來了降本增效
醫療機器人已成為智慧養老模式下的首選養老設備,醫院中有繁雜的配送藥物或餐食的任務,并且需在特定時間準時送達
送餐已經可以通過機器人自主完成,員工可以把節省出來的時間和精力,投入在給客人慶生,涮菜涮肉等服務水平的提升上,機器人真正帶來了降本增效