ChatGPT 將海量訓練數據與 Transformer 框架結(jie)合,在(zai) GPT 模型的基(ji)礎上(shang)通過 RLHF 模型提(ti)升(sheng)交互聊天能力,實(shi)現了對(dui)自然語(yu)言(yan)(yan)的深度建模,Transformer 有望在(zai)未來 較(jiao)長時間內成(cheng)為 AIGC 語(yu)言(yan)(yan)領域(yu)的核(he)心技術框架。
Transformer 架構為自(zi)然語言理解領域(yu)(yu)帶(dai)來顛(dian)(dian)覆(fu)性變革,應(ying)用到 NLP、CV、生物、化 學(xue)等多領域(yu)(yu)。2017 年,谷歌跳(tiao)出 RNN 和(he) CNN 的(de)結(jie)構,提出了完全基(ji)于 Self-Attention 機 制的(de) Transformer 架構,當時在機器翻(fan)譯任(ren)務上(shang)取得了顛(dian)(dian)覆(fu)性的(de)進步。Transformer 由一個 編(bian)碼(ma)器和(he)一個解碼(ma)器組成,且各自(zi)由若干個編(bian)碼(ma)/解碼(ma)模塊堆疊而成,每個模塊包(bao)含 MultiHead Attention 層(ceng)、全連接層(ceng)等功能不同的(de)工(gong)作層(ceng)。
Transformer 架(jia)(jia)構(gou)優(you)勢突出,計(ji)算效率、并行度、解釋(shi)性均實現突破。相比于之前的 框架(jia)(jia) Transformer 架(jia)(jia)構(gou)除了(le)在(zai)計(ji)算的時間復雜度更(geng)優(you)外,還有 3 大(da)優(you)勢:
(1)可(ke)直(zhi)接(jie)計算點(dian)乘(cheng)結果,并行度高:對(dui)于數(shu)據序列 x1,x2……xn ,self-attention 可(ke) 以直(zhi)接(jie)計算任意兩節點(dian)的點(dian)乘(cheng)結果,而 RNN 必須按照(zhao)順序從 x1 計算到 xn。
(2)一(yi)步(bu)計算,解決長時依(yi)賴問(wen)題:處理序列信息使,通常用要經過的路徑長度(du)衡量 性能,CNN 需要增加卷積層數來擴大視野,RNN 只能逐(zhu)個進(jin)行計算,而 self-attention 只需 要一(yi)步(bu)矩陣計算就可(ke)以(yi),更好地解決長時依(yi)賴問(wen)題。
(3)模型更(geng)(geng)可解釋(shi)(shi):self-attention 模型更(geng)(geng)可解釋(shi)(shi),attention 結果(guo)的(de)分布可反映該模型 學(xue)習(xi)到(dao)了(le)一些語(yu)法和語(yu)義信(xin)息。
![]() |
機器人公司 機器人應用 智能醫療 物聯網 機器人排名 機器人企業 教育機器人 機器人開發 獨角獸 消毒機器人品牌 消毒機器人 |