DeepSeek 對(dui)中國最(zui)大的(de)啟示,還是(shi)“開(kai)放(fang)”二字。無(wu)論是(shi) 心態上還是(shi)方法上,都要(yao)毫(hao)不動(dong)搖地堅持開(kai)放(fang),繼續開(kai)放(fang)。 DeepSeek 的(de)勝利,就是(shi)開(kai)源(yuan)打(da)敗閉(bi)源(yuan)。OpenAI 以前是(shi)開(kai)源(yuan) 的(de),后來變成閉(bi)源(yuan)的(de),這次 DeepSeek 爆火之后,OpenAI 的(de) 奧特曼(man)也出(chu)來說話(hua),承認(ren)閉(bi)源(yuan)是(shi)一種戰略錯誤。
本周圍(wei)繞(rao) DeepSeek 的(de)(de)熱議,讓許多人清(qing) 晰地看(kan)到了幾個一直存在(zai)(zai)(zai)(zai)的(de)(de)重要趨勢:美(mei)國(guo)在(zai)(zai)(zai)(zai) GenAI領(ling)域的(de)(de)領(ling)先地位(wei)正(zheng)(zheng)在(zai)(zai)(zai)(zai)被(bei)中國(guo)迎(ying)頭趕上(shang),AI 供應鏈(lian)格局將被(bei)重塑;開放權重模(mo)型正(zheng)(zheng)在(zai)(zai)(zai)(zai)推動基礎模(mo)型層商品化,為應用開發者帶(dai)來(lai)新機遇(yu) ;擴(kuo)大規模(mo)并(bing)非通(tong)往(wang) AI 進步的(de)(de)唯一途徑(jing)。盡管算力 備受追捧,但算法創新正(zheng)(zheng)在(zai)(zai)(zai)(zai)快(kuai)速降低(di)訓練成本。
“DeepSeek 可(ke)能會開辟一個全新的由(you)中國(guo)引(yin)領的技(ji)術 生態系(xi)統(tong),這(zhe)會讓全球(qiu)的開發者因 DeepSeek 開發的低成本、 更(geng)高效的人工智能產品而受(shou)益。”一位 TMT 領域投資人如是 說,“這(zhe)種競爭(zheng)從(cong)某(mou)種程(cheng)度來(lai)說也將打破美國(guo)科(ke)技(ji)巨頭的市(shi) 場主導地位。
大模型訓(xun)練降低成本(ben)主要靠兩招:壓縮、并(bing)行(xing)和提升硬 件使用效率。DeepSeek-V3 這(zhe)次所用的方法基本(ben)上就是(shi)猛揮 這(zhe)三(san)板(ban)斧。
1. 壓(ya)縮(suo):從(cong)結構到量(liang)化
壓縮(suo)很(hen)容(rong)易理解,就是把大(da)的(de)(de)東(dong)西壓縮(suo)成小(xiao)的(de)(de)。對于模 型訓(xun)練來講,壓縮(suo)之(zhi)后(hou),運(yun)算單元(GPU 和 CPU)需要進行 的(de)(de)運(yun)算數(shu)據量(liang)就會減少(shao),運(yun)算速(su)率(lv)必然會提(ti)升。另(ling)一個重要 影(ying)響是,內存占用和緩存會減少(shao),這樣(yang)訓(xun)練同樣(yang)大(da)小(xiao)的(de)(de)模型 所需要的(de)(de)硬(ying)件規模也可以大(da)幅(fu)減少(shao)。
2. 并行:對硬件的(de)極限(xian)使用(yong)
要(yao)實現更(geng)快(kuai)的(de)訓練(lian)速度,最有效(xiao)的(de)方法就(jiu)是增(zeng)加并行計 算(suan)的(de)規模,讓(rang)更(geng)多的(de)計算(suan)單元(yuan)同(tong)(tong)時(shi)處理不同(tong)(tong)的(de)數據或任務。 而在并行中,需要(yao)解決的(de)問題就(jiu)是盡可能的(de)有效(xiao)利(li)用計算(suan)資(zi) 源,讓(rang)它(ta)們都(dou)高負(fu)載的(de)工作(zuo)。
DeepSeek-V3 這(zhe)回(hui)真(zhen)的可以說(shuo)是在訓(xun)練工程上無所不用 其極。總結下來(lai),最重(zhong)要的包括以下這(zhe)么幾個方面。
DeepSeek-V3 的(de)(de)橫空出世,用(yong)一(yi)組的(de)(de)數據(ju)完(wan)美詮釋了沒 有 GPU Poor,只有卷得不夠多(duo)。當 o1、Claude、Gemini 和 Llama 3 等模(mo)(mo)型(xing)還在(zai)(zai)為數億(yi)(yi)美元(yuan)的(de)(de)訓練(lian)成本苦惱時, DeepSeek-V3 用(yong) 557.6 萬(wan)美元(yuan)的(de)(de)預(yu)算,在(zai)(zai) 2048 個 H800 GPU集(ji)群上僅花(hua)費 3.7 天/萬(wan)億(yi)(yi) tokens 的(de)(de)訓練(lian)時間,就達到了足以 與它(ta)們比肩的(de)(de)性能。這意味著每萬(wan)億(yi)(yi) tokens 僅需 180K 個 H800 GPU 小(xiao)(xiao)時,總(zong)計 278 萬(wan) GPU 小(xiao)(xiao)時的(de)(de)訓練(lian)成本。而 Llama 3.1 的(de)(de)訓練(lian)使用(yong)了 16,384 塊 Nvidia H100 GPU,總(zong)計 2100 多(duo) 萬(wan) GPU 小(xiao)(xiao)時,翻了十倍。通(tong)過 671B 的(de)(de)總(zong)參數量,在(zai)(zai)每個 token 激(ji)活 37B 參數的(de)(de)精(jing)準(zhun)控制下,DeepSeek-V3 用(yong) 14.8 萬(wan) 億(yi)(yi)高質(zhi)量多(duo)樣化 token,構建出了一(yi)個能夠超越(yue)所有開源(yuan)模(mo)(mo) 型(xing),直逼 GPT-4 和 Claude-3.5 的(de)(de) AI 巨人。
![]() |
智能服務機器人 |