近幾年,大(da)模(mo)(mo)(mo)型推動人(ren)工(gong)智(zhi)能(neng)(neng)(neng)(neng)技(ji)術(shu)(shu)迅猛發(fa)展(zhan),極大(da)地拓展(zhan)了機器(qi) 智(zhi)能(neng)(neng)(neng)(neng)的(de)邊界,展(zhan)現(xian)出通用(yong)(yong)(yong)人(ren)工(gong)智(zhi)能(neng)(neng)(neng)(neng)的(de)“曙光”。如(ru)何(he)準(zhun)(zhun)確、客觀、全 面衡量(liang)當(dang)前大(da)模(mo)(mo)(mo)型能(neng)(neng)(neng)(neng)力,成(cheng)為產學研用(yong)(yong)(yong)各界關(guan)注的(de)重要(yao)問(wen)題。設(she)計合 理的(de)任務、數(shu)據集和(he)指(zhi)標(biao),對(dui)大(da)模(mo)(mo)(mo)型進(jin)行(xing)基(ji)準(zhun)(zhun)測試(shi),是定量(liang)評價大(da)模(mo)(mo)(mo) 型技(ji)術(shu)(shu)水平的(de)主要(yao)方式。大(da)模(mo)(mo)(mo)型基(ji)準(zhun)(zhun)測試(shi)不僅可(ke)以評估當(dang)前技(ji)術(shu)(shu)水平, 指(zhi)引(yin)未來(lai)學術(shu)(shu)研究(jiu),牽引(yin)產品研發(fa)、支撐行(xing)業(ye)應用(yong)(yong)(yong),還可(ke)以輔(fu)助監管 治理,也有利于增(zeng)進(jin)社會公眾對(dui)人(ren)工(gong)智(zhi)能(neng)(neng)(neng)(neng)的(de)正確認知,是促進(jin)人(ren)工(gong)智(zhi) 能(neng)(neng)(neng)(neng)技(ji)術(shu)(shu)產業(ye)發(fa)展(zhan)的(de)重要(yao)抓手。全球主要(yao)學術(shu)(shu)機構和(he)頭(tou)部企業(ye)都十分重 視大(da)模(mo)(mo)(mo)型基(ji)準(zhun)(zhun)測試(shi),陸續發(fa)布了一系(xi)列評測數(shu)據集、框架和(he)結果榜單, 對(dui)于推動大(da)模(mo)(mo)(mo)型技(ji)術(shu)(shu)發(fa)展(zhan)產生了積極作用(yong)(yong)(yong)。然而,隨著大(da)模(mo)(mo)(mo)型能(neng)(neng)(neng)(neng)力不 斷(duan)增(zeng)強和(he)行(xing)業(ye)賦能(neng)(neng)(neng)(neng)逐漸深(shen)入,大(da)模(mo)(mo)(mo)型基(ji)準(zhun)(zhun)測試(shi)體系(xi)還需要(yao)與時俱進(jin), 不斷(duan)完善。
本研究報(bao)告首先回顧了(le)大(da)(da)(da)模(mo)(mo)(mo)(mo)型(xing)基準(zhun)(zhun)測(ce)試(shi)(shi)(shi)的發展現狀,對(dui)已(yi)發布的 主要(yao)大(da)(da)(da)模(mo)(mo)(mo)(mo)型(xing)評(ping)(ping)測(ce)數據(ju)集、體系和方法進(jin)行了(le)梳理(li),分(fen)析(xi)了(le)當前基準(zhun)(zhun)測(ce)試(shi)(shi)(shi)存(cun)(cun)在的問題(ti)和挑戰,提出了(le)一套系統(tong)化構建大(da)(da)(da)模(mo)(mo)(mo)(mo)型(xing)基準(zhun)(zhun)測(ce)試(shi)(shi)(shi)的框架 —— “方升”大(da)(da)(da)模(mo)(mo)(mo)(mo)型(xing)基準(zhun)(zhun)測(ce)試(shi)(shi)(shi)體系,介紹(shao)了(le)基于“方升”體系初(chu)步開(kai) 展的大(da)(da)(da)模(mo)(mo)(mo)(mo)型(xing)評(ping)(ping)測(ce)情況(kuang),并對(dui)未來大(da)(da)(da)模(mo)(mo)(mo)(mo)型(xing)基準(zhun)(zhun)測(ce)試(shi)(shi)(shi)的發展趨勢進(jin)行展望。 面向未來,大(da)(da)(da)模(mo)(mo)(mo)(mo)型(xing)基準(zhun)(zhun)測(ce)試(shi)(shi)(shi)仍存(cun)(cun)在諸多開(kai)放性的問題(ti),還需要(yao)產學研 各界(jie)緊密合作(zuo),共(gong)同建設大(da)(da)(da)模(mo)(mo)(mo)(mo)型(xing)基準(zhun)(zhun)測(ce)試(shi)(shi)(shi)標(biao)準(zhun)(zhun),為(wei)大(da)(da)(da)模(mo)(mo)(mo)(mo)型(xing)行業健康有 序(xu)發展提供有力支撐
人(ren)工(gong)(gong)智(zhi)(zhi)(zhi)能(neng)(neng)技術(shu)(shu)發(fa)展迅速,大模(mo)型、RAG、AGENT、 具身(shen)智(zhi)(zhi)(zhi)能(neng)(neng)、 AGI等(deng)新概念和(he)(he)新技術(shu)(shu)層出(chu)不窮。大模(mo)型基(ji)準測(ce)試(shi)作(zuo)為研(yan)究較為深入 的(de)(de)領域(yu),將帶(dai)動其他(ta)新技術(shu)(shu)的(de)(de)研(yan)究。當(dang)前雖然(ran) AGI 仍(reng)未有明(ming)確的(de)(de)定 義,但針對 AGI 的(de)(de)探索性(xing)評測(ce)研(yan)究已(yi)有初步成果。例如微軟發(fa)布論(lun) 文《通(tong)用人(ren)工(gong)(gong)智(zhi)(zhi)(zhi)能(neng)(neng)的(de)(de)火花:GPT-4 的(de)(de)早期(qi)實驗》,通(tong)過數學、編程、 視覺、醫學、法律、心(xin)理學等(deng)復(fu)雜度較高的(de)(de)任務證明(ming)GPT-4已(yi)經進(jin)入 AGI 的(de)(de)早期(qi)階段。北京通(tong)用人(ren)工(gong)(gong)智(zhi)(zhi)(zhi)能(neng)(neng)研(yan)究院發(fa)布《通(tong)智(zhi)(zhi)(zhi)測(ce)試(shi):通(tong)用人(ren) 工(gong)(gong)智(zhi)(zhi)(zhi)能(neng)(neng)具身(shen)物理與社會(hui)測(ce)試(shi)評級系統》,提(ti)出(chu)一(yi)種基(ji)于(yu)能(neng)(neng)力和(he)(he)價值維(wei) 度的(de)(de) AGI 的(de)(de)評測(ce)方法。中國(guo)科(ke)學院和(he)(he)美國(guo)俄亥俄州立大學等(deng)先后推(tui) 出(chu)AGIBench 和(he)(he)MMMU 評測(ce)數據集,從多模(mo)態(tai)、多學科(ke)、多粒度等(deng) 維(wei)度衡量大模(mo)型距離(li)AGI 的(de)(de)差距。雖然(ran)當(dang)前AGI 的(de)(de)發(fa)展仍(reng)然(ran)處(chu)于(yu)初 期(qi)階段,但通(tong)過基(ji)準測(ce)試(shi)的(de)(de)研(yan)究,可以(yi)為未來 AGI 的(de)(de)發(fa)展方向提(ti)供 思路,并對AGI 的(de)(de)能(neng)(neng)力進(jin)行監控以(yi)指(zhi)引其正向發(fa)展。
智能服務機器人 |