技術(shu)發(fa)展(zhan)方面(mian),隨著謂詞推理(li)、專家系統、知(zhi)識(shi)樹和向量機學習等(deng)傳 統技術(shu)的(de)(de)發(fa)展(zhan)日趨(qu)放緩(huan),促使以聯(lian)結主義(yi)和概率統計等(deng)理(li)論為基礎(chu)的(de)(de)深度 學習加(jia)速(su)發(fa)展(zhan),邁入了以人工神經網絡為基礎(chu)、以大模型為典型應用(yong)的(de)(de)新 發(fa)展(zhan)階(jie)段。
在(zai)模(mo)(mo)型方(fang)面,大(da)規模(mo)(mo)人(ren)工智(zhi)能模(mo)(mo)型逐步成(cheng)為(wei)業(ye)界主流(liu)。以生(sheng)(sheng)成(cheng)式人(ren) 工智(zhi)能為(wei)例,具備數(shu)百(bai)億(yi)參(can)(can)數(shu)的(de)模(mo)(mo)型已非罕(han)見(jian),并(bing)隨著(zhu)模(mo)(mo)型規模(mo)(mo)增長(chang)產生(sheng)(sheng) 了接(jie)近人(ren)類的(de)“高級(ji)”能力,使人(ren)們相信通用人(ren)工智(zhi)能或將(jiang)到(dao)來。 Stable Diffusion 、Midjourney等(deng)視(shi)覺(jue)生(sheng)(sheng)成(cheng)模(mo)(mo)型具有類似人(ren)類的(de)視(shi)覺(jue)創作能力, ChatGPT等(deng)文本生(sheng)(sheng)成(cheng)模(mo)(mo)型具有高度近似人(ren)類的(de)語言推理(li)(li)和(he)規劃等(deng)能力。有 研究認為(wei),這些能力是隨著(zhu)模(mo)(mo)型參(can)(can)數(shu)達到(dao)數(shu)百(bai)億(yi)級(ji)別(bie)后逐漸產生(sheng)(sheng)的(de),雖其技術(shu)原理(li)(li)尚未明晰,但(dan)進一步推動了模(mo)(mo)型越來越大(da)的(de)技術(shu)趨勢。
在(zai)訓(xun)練(lian)(lian)(lian)方(fang)面,有人(ren)(ren)類參與(yu)的(de)指令微調技術是(shi)近年來人(ren)(ren)工智能的(de)另一(yi) 大(da)技術特(te)點。指令微調主要(yao)有三種實現形式,以預訓(xun)練(lian)(lian)(lian)語言(yan)模(mo)型(xing)(xing)(xing)為例:一(yi) 是(shi)引入人(ren)(ren)工撰寫的(de)大(da)量(liang)對話(hua)數據對模(mo)型(xing)(xing)(xing)進(jin)(jin)(jin)行(xing)微調訓(xun)練(lian)(lian)(lian);二是(shi)人(ren)(ren)工對微調后 模(mo)型(xing)(xing)(xing)面向同一(yi)提示詞生(sheng)(sheng)成的(de)多個備選答案進(jin)(jin)(jin)行(xing)價(jia)(jia)值排序(xu),訓(xun)練(lian)(lian)(lian)價(jia)(jia)值評(ping)分模(mo) 型(xing)(xing)(xing);三是(shi)在(zai)價(jia)(jia)值評(ping)分模(mo)型(xing)(xing)(xing)的(de)獎勵信號下,微調模(mo)型(xing)(xing)(xing)進(jin)(jin)(jin)行(xing)強(qiang)化(hua)學習訓(xun)練(lian)(lian)(lian),不(bu) 斷改進(jin)(jin)(jin)模(mo)型(xing)(xing)(xing)的(de)表現。通(tong)過該部分技術,可(ke)將在(zai)海量(liang)語料庫上訓(xun)練(lian)(lian)(lian)的(de)模(mo)型(xing)(xing)(xing)與(yu) 復雜的(de)人(ren)(ren)類價(jia)(jia)值觀實現對齊,期望人(ren)(ren)工智能可(ke)以生(sheng)(sheng)成正確、有用、無(wu)害的(de) 內(nei)容。
智能服務機器人 |