當前位置：首頁 > 新聞資訊 > 機器人知識 > 機器人多模態視覺語言導航技術解析

機器人多模態視覺語言導航技術解析

來源：算法邦編輯：創澤時間：2022/4/21 主題：其他 [加盟]

計算機視覺（CV）和自然語(yu)(yu)言(yan)處理（NLP）早先(xian)是兩個較(jiao)為獨立的(de)研(yan)究(jiu)(jiu)領(ling)域(yu)。CV 重點關注如何用(yong)計算機代(dai)替人眼對目標完成識(shi)別、跟蹤(zong)、測(ce)量等任(ren)務(wu)，對圖像進行處理；NLP 則研(yan)究(jiu)(jiu)計算機如何處理、運用(yong)自然語(yu)(yu)言(yan)，包括語(yu)(yu)言(yan)生(sheng)成、問(wen)答(da)、對話等任(ren)務(wu)。近年來，以深(shen)度神經網絡為代(dai)表的(de)機器學習和模式識(shi)別技(ji)術被廣泛應用(yong)于 CV 和 NLP 領(ling)域(yu)，取得了目前最先(xian)進的(de)效果(guo)。

近年來，研究(jiu)者們試圖將動(dong)作控制也引入(ru)(ru)到「視(shi)覺-語言(yan)」任務(wu)(wu)的框(kuang)架中。吳琦將此(ci)類(lei)任務(wu)(wu)命(ming)名為 V3A（Vision, Ask, Answer, Act），在(zai)給定視(shi)覺輸(shu)入(ru)(ru)后，我們希(xi)望機器能夠(gou)提出(chu)問題(ti)、回答問題(ti)、并通(tong)過和人以及(ji)機器之間的語言(yan)交(jiao)流執行某些動(dong)作。

例(li)如，「Vision+Ask」的任(ren)務包含視覺問題生(sheng)成、根(gen)據問題生(sheng)成查詢、圖像描述等；「Vision+Answer」的任(ren)務包含視覺問答、視覺對(dui)話(hua)等；「Vision+Act」的任(ren)務包含指稱(cheng)表(biao)達(da)、視覺對(dui)齊（visual grounding）、語言引(yin)導的視覺導航(hang)、具身視覺問答、具身指稱(cheng)表(biao)達(da)等。

<bdo id='uE7Pl'><sup id='EWg4f'><div id='y2uHx'><bdo id='TVB4V'></bdo></div></sup></bdo>

国产成在线观看免费视频_久久九九久精品国产日韩经典_亚洲AV无码成H人动漫网站_YY亚洲人成电影网站色

機器人多模態視覺語言導航技術解析

機器學習框架應用報告：聯邦學習場景應用研究報告2022

Deep Tech：2022先進計算七大趨勢

基于電阻抗和聲學成像的仿生機器皮膚

基于康復機器人內部傳感器的運動功能評價方法

優必選科技副總裁龐建新：面向智能機器人的視覺感知與理解

優必選專家丁宏鈺深入講解大型仿人機器人整機構型

個性化的人機交互

淺談服務機器人的潛在危險

視頻搜索太難了！阿里文娛多模態搜索算法實踐

野外自主農作物探測機器人Robotanist使用擴展卡爾曼濾波器(EKF)方法融合MTI等傳感器信息

Jupiter由四輪獨立轉向的底盤和UR5機械臂組成通過SSD網絡檢測目標物體

移動式操作機器人平臺Personal Robot 2可模擬開門、打臺球和畫畫

仿人操作機器人Cosero配備7自由度機械臂裝有Kinect相機實現對目標環境的3D感知

傳感器面臨時代新機遇，未來發展將呈現哪些趨勢

中國移動室內定位白皮書

服務機器人(迎賓、講解、導診...)