當前位置：首頁 > 新聞資訊 > ai智能 > 大模型基準測試體系研究報告（2024年） -方升大模型基準測試體系

大模型基準測試體系研究報告（2024年） -方升大模型基準測試體系

來源：中國信息通信研究院編輯：創澤時間：2024/10/18 主題：其他 [加盟]

近幾年，大(da)模(mo)(mo)(mo)型推動人(ren)工(gong)智(zhi)能(neng)(neng)(neng)(neng)技(ji)術(shu)(shu)迅猛發(fa)展(zhan)，極大(da)地拓展(zhan)了機器(qi) 智(zhi)能(neng)(neng)(neng)(neng)的(de)邊界，展(zhan)現(xian)出通用(yong)(yong)(yong)人(ren)工(gong)智(zhi)能(neng)(neng)(neng)(neng)的(de)“曙光”。如(ru)何(he)準(zhun)(zhun)確、客觀、全面衡量(liang)當(dang)前大(da)模(mo)(mo)(mo)型能(neng)(neng)(neng)(neng)力，成(cheng)為產學研用(yong)(yong)(yong)各界關(guan)注的(de)重要(yao)問(wen)題。設(she)計合理的(de)任務、數(shu)據集和(he)指(zhi)標(biao)，對(dui)大(da)模(mo)(mo)(mo)型進(jin)行(xing)基(ji)準(zhun)(zhun)測試(shi)，是定量(liang)評價大(da)模(mo)(mo)(mo) 型技(ji)術(shu)(shu)水平的(de)主要(yao)方式。大(da)模(mo)(mo)(mo)型基(ji)準(zhun)(zhun)測試(shi)不僅可(ke)以評估當(dang)前技(ji)術(shu)(shu)水平，指(zhi)引(yin)未來(lai)學術(shu)(shu)研究(jiu)，牽引(yin)產品研發(fa)、支撐行(xing)業(ye)應用(yong)(yong)(yong)，還可(ke)以輔(fu)助監管治理，也有利于增(zeng)進(jin)社會公眾對(dui)人(ren)工(gong)智(zhi)能(neng)(neng)(neng)(neng)的(de)正確認知，是促進(jin)人(ren)工(gong)智(zhi) 能(neng)(neng)(neng)(neng)技(ji)術(shu)(shu)產業(ye)發(fa)展(zhan)的(de)重要(yao)抓手。全球主要(yao)學術(shu)(shu)機構和(he)頭(tou)部企業(ye)都十分重視大(da)模(mo)(mo)(mo)型基(ji)準(zhun)(zhun)測試(shi)，陸續發(fa)布了一系(xi)列評測數(shu)據集、框架和(he)結果榜單，對(dui)于推動大(da)模(mo)(mo)(mo)型技(ji)術(shu)(shu)發(fa)展(zhan)產生了積極作用(yong)(yong)(yong)。然而，隨著大(da)模(mo)(mo)(mo)型能(neng)(neng)(neng)(neng)力不斷(duan)增(zeng)強和(he)行(xing)業(ye)賦能(neng)(neng)(neng)(neng)逐漸深(shen)入，大(da)模(mo)(mo)(mo)型基(ji)準(zhun)(zhun)測試(shi)體系(xi)還需要(yao)與時俱進(jin)，不斷(duan)完善。

本研究報(bao)告首先回顧了(le)大(da)(da)(da)模(mo)(mo)(mo)(mo)型(xing)基準(zhun)(zhun)測(ce)試(shi)(shi)(shi)的發展現狀，對(dui)已(yi)發布的主要(yao)大(da)(da)(da)模(mo)(mo)(mo)(mo)型(xing)評(ping)(ping)測(ce)數據(ju)集、體系和方法進(jin)行了(le)梳理(li)，分(fen)析(xi)了(le)當前基準(zhun)(zhun)測(ce)試(shi)(shi)(shi)存(cun)(cun)在的問題(ti)和挑戰，提出了(le)一套系統(tong)化構建大(da)(da)(da)模(mo)(mo)(mo)(mo)型(xing)基準(zhun)(zhun)測(ce)試(shi)(shi)(shi)的框架 —— “方升”大(da)(da)(da)模(mo)(mo)(mo)(mo)型(xing)基準(zhun)(zhun)測(ce)試(shi)(shi)(shi)體系，介紹(shao)了(le)基于“方升”體系初(chu)步開(kai) 展的大(da)(da)(da)模(mo)(mo)(mo)(mo)型(xing)評(ping)(ping)測(ce)情況(kuang)，并對(dui)未來大(da)(da)(da)模(mo)(mo)(mo)(mo)型(xing)基準(zhun)(zhun)測(ce)試(shi)(shi)(shi)的發展趨勢進(jin)行展望。面向未來，大(da)(da)(da)模(mo)(mo)(mo)(mo)型(xing)基準(zhun)(zhun)測(ce)試(shi)(shi)(shi)仍存(cun)(cun)在諸多開(kai)放性的問題(ti)，還需要(yao)產學研各界(jie)緊密合作(zuo)，共(gong)同建設大(da)(da)(da)模(mo)(mo)(mo)(mo)型(xing)基準(zhun)(zhun)測(ce)試(shi)(shi)(shi)標(biao)準(zhun)(zhun)，為(wei)大(da)(da)(da)模(mo)(mo)(mo)(mo)型(xing)行業健康有序(xu)發展提供有力支撐

人(ren)工(gong)(gong)智(zhi)(zhi)(zhi)能(neng)(neng)技術(shu)(shu)發(fa)展迅速，大模(mo)型、RAG、AGENT、具身(shen)智(zhi)(zhi)(zhi)能(neng)(neng)、 AGI等(deng)新概念和(he)(he)新技術(shu)(shu)層出(chu)不窮。大模(mo)型基(ji)準測(ce)試(shi)作(zuo)為研(yan)究較為深入的(de)(de)領域(yu)，將帶(dai)動其他(ta)新技術(shu)(shu)的(de)(de)研(yan)究。當(dang)前雖然(ran) AGI 仍(reng)未有明(ming)確的(de)(de)定義，但針對 AGI 的(de)(de)探索性(xing)評測(ce)研(yan)究已(yi)有初步成果。例如微軟發(fa)布論(lun) 文《通(tong)用人(ren)工(gong)(gong)智(zhi)(zhi)(zhi)能(neng)(neng)的(de)(de)火花：GPT-4 的(de)(de)早期(qi)實驗》,通(tong)過數學、編程、視覺、醫學、法律、心(xin)理學等(deng)復(fu)雜度較高的(de)(de)任務證明(ming)GPT-4已(yi)經進(jin)入 AGI 的(de)(de)早期(qi)階段。北京通(tong)用人(ren)工(gong)(gong)智(zhi)(zhi)(zhi)能(neng)(neng)研(yan)究院發(fa)布《通(tong)智(zhi)(zhi)(zhi)測(ce)試(shi)：通(tong)用人(ren) 工(gong)(gong)智(zhi)(zhi)(zhi)能(neng)(neng)具身(shen)物理與社會(hui)測(ce)試(shi)評級系統》,提(ti)出(chu)一(yi)種基(ji)于(yu)能(neng)(neng)力和(he)(he)價值維(wei) 度的(de)(de) AGI 的(de)(de)評測(ce)方法。中國(guo)科(ke)學院和(he)(he)美國(guo)俄亥俄州立大學等(deng)先后推(tui) 出(chu)AGIBench 和(he)(he)MMMU 評測(ce)數據集，從多模(mo)態(tai)、多學科(ke)、多粒度等(deng) 維(wei)度衡量大模(mo)型距離(li)AGI 的(de)(de)差距。雖然(ran)當(dang)前AGI 的(de)(de)發(fa)展仍(reng)然(ran)處(chu)于(yu)初期(qi)階段，但通(tong)過基(ji)準測(ce)試(shi)的(de)(de)研(yan)究，可以(yi)為未來 AGI 的(de)(de)發(fa)展方向提(ti)供思路，并對AGI 的(de)(de)能(neng)(neng)力進(jin)行監控以(yi)指(zhi)引其正向發(fa)展。

附件：大模型基準測試體系研究報告（2024年） -方升大模型基準測試體系

通用大模型2024年發展趨勢：多功能與小型化

參數規模擴展在數據量和參數量上將迎來顯著躍升;多模態融合實現跨模態的交互與理解，從而拓寬其應用場景和實用價值;大模型小模型化更易于產業落地

2024汽車AI大模型TOP10分析報告-汽車行業的應用現狀和發展趨勢

分析了AI大模型在汽車行業的應用現狀和發展趨勢，涵蓋了技術演進、產業挑戰與企業實踐案例;盤古大模型和ModelArtsAI開發生產線，已經在多個車企和商用車場景中成功運用

AI視頻生成研究報告-由檢索生成、局部生成走向依靠自然語言提示詞的全量生成

檢索生成主要是對現有的視頻素材根據關鍵詞和標簽進行檢索匹配,再進行相應的拼接和排列組合;僅針對視頻的一部分進行生成,例如視頻中人物角色、動作、背景、風格化、特殊效果等

中國未來五十年人工智能行業生態全景—AI基礎層全景

中國在AI基礎設施和軟件層面嚴重依賴國際廠商,特別是在計算芯片和存儲芯片領域;在軟件層面,依賴程度更加嚴重,軟件仍是中國各大企業的常用工具占比達59%

中國未來五十年人工智能行業生態全景—關鍵技術

以注意力機制為核心的Transformer架構賦能AI在文本、圖像、視頻生成、文字交互、智能語音和計算機視覺領域的技術能力增強和應用范圍拓寬

中國近幾年人工智能相關政策匯總

生成式人工智能服務管理暫行辦法,算力基礎設施高質量發展行動計劃,關于加快場景創新以人工智能高水平應用促進經濟高質量發展的指導意見,國家新一代人工智能創新發展試驗區建設工作指引

中國人工智能競爭與發展潛力—技術優勢

中國多年來在人工智能論文發表數量和專利授權數量方面均居世界首位;顯著領先于其他國家,中國人工智能專利授權的數量在全球范圍內占比達61.3%，位居全球榜首

2024智能算力產業發展白皮書-算力規模增速超過50%

我國智能算力占比已經超過通用算力，成為整體算力增長的主要驅動力;國算力結構為通用算力：智能算力：超級算力=40%:59%:1%智能算力占比已較大幅度超過通用算力占比

大模型安全實踐白皮書2024-安全性、可靠性、可控性以及評測四個角度剖析

分析了大模型發展趨勢挑戰的基礎上，提出了大模型安全實踐總體框架，并從安全性、可靠性、可控性以及評測四個角度對大模型安全技術進行了深度剖析

中國未來50年產業發展趨勢白皮書-人工智能、智能制造、大消費、生命科學、碳中和等五大產業

白皮書將聚焦中國未來核心產業的發展方向，從人工智能、智能制造、大消費、生命科學、碳中和等五大產業出發，探討中國將如何迎接下一波增長浪潮

脈脈2024大模型人才報告-人才供需比為1.76，薪酬漲幅保持在30%-50%

大模型領域人才供需比為1.76,整體供大于求,但高端技術崗位如云計算和算法仍緊缺,薪酬漲幅保持在30%-50%,65.79%每周工作超50小時,從業者中82%因技術和前景而主動加入

AI醫學影像行業發展現狀與未來趨勢藍皮書-92款人工智能醫學影像輔助診斷軟件獲批

設備精度提升以及對更精準診斷的追求使得我國醫學影像數據大量積累人工智能可以充分利用這些數據進行模型訓練；提高了醫學診斷效率，減輕了醫生工作負擔、促進了醫療資源均衡分配

_{^{<dd id='gxk70'><tbody id='gxk70'><td id='gxk70'><optgroup id='gxk70'><strong id='gxk70'></strong></optgroup><address id='gxk70'><ul id='gxk70'></ul></address><big id='gxk70'></big></td><table id='gxk70'></table></tbody><pre id='gxk70'></pre></dd><span id='gxk70'><b id='gxk70'></b></span>}}


<dfn id='gxk70'><optgroup id='gxk70'></optgroup></dfn><tfoot id='gxk70'><bdo id='gxk70'><div id='gxk70'></div><i id='gxk70'><dt id='gxk70'></dt></i></bdo></tfoot>

_{<fieldset id='gxk70'></fieldset>}

国产成在线观看免费视频_久久九九久精品国产日韩经典_亚洲AV无码成H人动漫网站_YY亚洲人成电影网站色