當前位置：首頁 > 新聞資訊 > 人工智能應用 > DeepSeek帶來的AI變革,在低精度FP8的模式下訓練大模型,計算成本降低約1000倍

DeepSeek帶來的AI變革,在低精度FP8的模式下訓練大模型,計算成本降低約1000倍

來源：華福證券編輯：創澤時間：2025/3/6 主題：其他 [加盟]

一、用戶量：海外加速(su)出(chu)圈，迅速(su)登頂全(quan)球(qiu)下(xia)載榜單(dan)

1、網頁(ye)端：重度用(yong)戶為主，DeepSeek 在 24 年 12 月(yue)(yue) 26 日(ri)推出(chu)V3（對(dui)標 GPT4o），因其顯著的性(xing)能，用(yong)戶迅速開始增長，同(tong)時(shi)在 1月(yue)(yue) 20 日(ri)發布 R1（對(dui)標 GPT-o1）后(hou)，進一步出(chu)圈。

2、APP 端：大眾用戶為主，R1 推出后，追平 GPT-o1，迅(xun)速出圈海外(wai)。根據點點數據，從 DeepSeek 在(zai)美國下載(zai)排名(ming)(ming)從 1 月 22 日的 201名(ming)(ming)，迅(xun)速在(zai) 1 月 27 日登頂第(di)一名(ming)(ming)；根據七麥數據，截止 1 月 30 日，DeepSeek 在(zai) 168 個國家位居下載(zai)榜第(di)一名(ming)(ming)。

二、DeepSeek 偏好激進性創新：架構(gou)（MOE+MLA）+精度（FP8）

1、MOE 架構創新：相比過(guo)去主流模型(xing)的 MOE 專家模型(xing)停留在8~16 個(ge)(ge)，而 DeepSeek 每個(ge)(ge) MoE 層(ceng)包(bao)含 1 個(ge)(ge)共享專家和(he) 256 個(ge)(ge)路(lu)由專家，有(you)助于降低模型(xing)推理(li)時激(ji)活的參數(shu)量。

2、MLA 架(jia)構(gou)創新：MLA 通過聯合(he)壓縮(suo)鍵(jian)值矩陣為低秩向(xiang)量，將多個頭的鍵(jian)值信息融合(he)，使(shi)推理時僅(jin)需緩存(cun)少量低秩向(xiang)量，大幅降低 KV 緩存(cun)需求(qiu)，減少內存(cun)占用。

3、訓練(lian)特色：突破(po)大模型訓練(lian)固(gu)定思維（一般模型權重(zhong)和梯度(du)(du)使(shi)用(yong) FP16，優化(hua)器參數使(shi)用(yong) FP32），敢于(yu)嘗試在(zai)低精度(du)(du) FP8 的模式下訓練(lian)大模型，并且(qie)該嘗試同(tong)樣出現了較好的效果。

三、DeepSeek 開源對 AI 應(ying)用和 AI 終端的影(ying)響(xiang)：產品力競爭時代

DeepSeek 從 V3 到(dao) R1，將進(jin)一步(bu)推動全行(xing)業大模型的提升，更快(kuai)的追趕 GPT4o 和(he) GPT-o1；同(tong)時成本(ben)的下(xia)降，有助(zhu)于 AI 應用和(he) AI 終(zhong)端的普及。未來行(xing)業競爭將進(jin)入“產品能力競爭”，巨頭的流量(liang)優勢將進(jin)一步(bu)凸(tu)顯(xian)。

四、DeepSeek 對推(tui)理成本的(de)影響：用戶規模和使用頻次(ci)

未來推動推理(li)成(cheng)本增(zeng)加(jia)的核(he)心因(yin)素(su)：用戶規模和用戶使用頻次的增(zeng)加(jia)。根據 Grok 創始人，過去 60 年(nian)，每10年(nian)計算(suan)成(cheng)本降低(di)約(yue)1000倍(bei)，但(dan)人們的購買量增(zeng)加(jia)了 10 萬倍(bei)，總支出反而增(zeng)長了 100 倍(bei)。

附件：DeepSeek帶來的AI變革,在低精度FP8的模式下訓練大模型,計算成本降低約1000倍

国产成在线观看免费视频_久久九九久精品国产日韩经典_亚洲AV无码成H人动漫网站_YY亚洲人成电影网站色

DeepSeek帶來的AI變革,在低精度FP8的模式下訓練大模型,計算成本降低約1000倍

DeepSeek 引發廣泛關注,大模型應用落地將加速,加快大模型在 B 端和 C 端應用場景的落地

從DeepSeek看國內AI產業趨勢,部署大模型的成本下降,應用有望大規模落地

DeepSeek推進技術平權，賦能AI圖像應用深耕細作,輸入費用 0.55/百萬 token

DeepSeek行業級應用白皮書,精準數據洞察與自動化效能提升方法論

周鴻祎清華授課：DeepSeek帶來的創業機會

AIGC發展研究3.0版,聚焦于DeepSeek以外的世界

DeepSeek與AI幻覺,普通用戶難以辨別AI內容的真實性,對醫療建議、法律咨詢等專業場景的可靠性產生懷疑

DeepSeek+DeepResearch：讓科研像聊天一樣簡單,垂直領域深耕,流程自動化與認知協作

DeepSeek賦能職場(清華大學2),從提示語技巧到多場景應用

DeepSeek從入門到精通(清華大學1),采用SPECTRA模型進行任務分解

DeepSeek提示詞工程和落地場景,使用DeepSeek的三種方法,提示詞讓對話質量提升立竿見影

DeepSeek與AIGC應用,探討大模型和AIGC的底層工作機制,突破工具應用的局限

服務機器人(迎賓、講解、導診...)